Home

i passe passe passe passe passe passe passe

image

Contents

1. 118 228 Chapitre A TABLE DES FIGURES Section A 12 TABLE DES FIGURES 4 6 4 7 4 8 4 9 4 10 4 11 4 12 4 13 4 14 4 15 4 16 4 17 5 1 5 2 9 3 5 4 5 9 5 6 5 7 5 8 5 9 6 1 R sultats de l valuation de l indexation automatique produite par F MTI compar e l indexation manuelle m dico conomique des 794 comptes rendus 24 oaoa 2864 2 Bowe ee eR ERE ES 121 R sultats de l valuation de l indexation automatique produite par F MTI compar e l indexation manuelle m dico conomique des 490 comptes rendus de Cardiologie 121 R sultats de l valuation de l indexation automatique produite par F MTI compar e l indexation manuelle m dico conomique des 304 comptes rendus de Pneumologie 122 R sultats de l valuation de l indexation automatique produite par F MTT compar e l indexation manuelle m dico conomique en ne consid rant que les diagnostics et les termes reli s la sp cialit lt car diologie gt ou lt pneumologie gt selon le secteur d origine des comptes PDO 2 4 a Be wb so eS eS PaE ok Pees 122 M me valuation en ne consid rant que les sympt mes 123 R sultats de l valuation de l indexation automatique produite par F MTT compar e aux indexations humaines m dico conomiques et descriptives des 100 lettres de sortie 123 Nombre moyen de codes par compt
2. La recherche simple permet l utilisateur peu exp riment de saisir une requ te sous forme d expressions libres en fran ais ou en anglais Le syst me est alors charg d exprimer cette requ te sous forme de mots cl s voir figure 1 3 afin de retourner les ressources qui ont t index es l aide de ces mots cl s La recherche avanc e permet des recherches plus pouss es facilit es par l utilisa tion d un formulaire contenant des listes d roulantes et permettant de combiner plusieurs champs mots cl s th me type de ressources ann e etc avec des 16 Pour plus d informations sur les m tadonn es LOM voir http www lomfr org 17 Pour plus d informations sur les m tadonn es HIDDEL voirhttp www medcircle org 6 Chapitre 1 Contexte Section 1 3 Contexte scientifique CiSM F Doc CISMeF AS Nadan Francophones et Index des Sites Fran Outil de recherche en m decine CHU H pitaux de Rou A propos de Simple Avancee Bool enne Pas Pas Y Recherche asthme Rechercher d 242 ressource s trouv e s en 0 5 secondes pour asthme mot r serv Interpr tation de la requ te vex ye 9 1 Allaitement maternel exclusif prolong et risque d asthme et d allergie 2008 Ry Site diteur Minerva revue evidence based medicine F 7 Question clinique Quelle est l efficacit d un allaitement maternel exclusif et prolong sur le risque d asthme et Mot r serv d all
3. vit es par le syst me Soergel88 Pour le r sultat de indexation automatique le bruit et le silence ont une im portance consid rable Du bruit entra nera une perte de temps pour l utilisateur qui cherche une r ponse parmi un ensemble de documents non pertinents et pour le m decin qui sera distrait par des alertes qui n ont pas lieu d tre pouvant m me entra ner des erreurs de d cision Le silence aboutit l impossibilit pour l utilisa teur de retrouver un document pertinent alors que celui ci aurait d tre propos et pour le m decin une absence d alerte en cas de risque pour le patient lors de sa prescription Pour un outil d indexation semi automatique 4 le bruit et le silence vont en trainer une perte de temps pour le m decin qui utilise l outil Selon le type d outil le bruit va obliger l utilisateur liminer ou pr ciser les termes non pertinents ou rendre plus difficile la reconnaissance des bons termes d indexation Le silence va Vobliger ajouter les termes manquants La qualit peut aussi tre valu e par la validation de l indexation par un in dexeur expert jugement subjectif de la pertinence des mots cl s s lectionn s pour l indexation ou des documents retourn s pour la recherche d information Un des principaux probl mes de ce genre d valuation est qu il n existe pas d in dexation de r f rence universelle Lancaster91 L indexation humaine d un expert
4. 5 10 Conclusion Nous avons propos plusieurs applications possibles de notre outil F MTI F MTI sera int gr pour r aliser les t ches d indexation au sein des trois quipes Il sera aussi utilis dans plusieurs projets Interstis PSIP D autres applications ont t envisag e comme l aide l indexation semi automatique g n raliste l indexation multilingue la structuration du dossier patient et le transcodage automatique 161 Chapitre 6 Discussion Nous r sumons ici les principaux r sultats obtenus et voquons les diff rentes perspectives 6 1 Discussion g n rale des r sultats obtenus L outil F MTI a t valu sur diff rents axes Nous avons montr les performances de notre outil dans la r alisation de trois t ches d indexation indexation des sites Web en MeSH indexation des dossiers m dicaux en CIM10 CCAM et SNOMED indexation des RCP en TUV Un des r sultats les plus importants de cette th se a t d objectiver la diff rence des r sultats d valuations selon a la tache d indexation b la terminologie c le corpus d le type de document au sein du corpus e les rubriques au sein du document Les r sultats sont diff rents selon la tache d indexation consid r e allant d une pr cision de 3 4 et d un rappel de 29 7 pour l indexation des comptes rendus en CIM10 une pr cision de 57 6 et un rappel de 43 4 pour l indexation des RCP
5. Commentaire Les cing terminologies ont t int gr es en fran ais dans F MTI donc ici l attribut pour tous les termes est gal lt FRE gt pour fran ais L attribut source d signe la terminologie dont est issu le terme lt CIM10 gt lt SNMI gt lt MeSH gt ou lt CCAM gt L attribut classe_terme indique la classe du terme 0 terme de section ou 197 Chapitre A Annexes Section A 3 Mod le g n ral chapitre 1 terme pr f r 2 synonyme 3 variante lexicale 4 abr viation 5 descripteur 6 inclusion Il correspond l attribut lt F class gt de la SNOMED et permet de renseigner l attribut PT du MeSH ainsi que toutes les formes particuli res pour les diff rentes terminologies les libell s courts CCAM et les abr viations des qualificatifs du MeSH en valeur 4 abr viation et les termes CIM10 not s 5 descripteur et 6 inclusion Commentaires le MeSH ne poss de pas de terme de section ou de chapitre et la CCAM ne renseigne que des termes pr f r s L attribut libell renseigne le libell du terme L attribut niveau hier renseigne le niveau du terme dans la hi rarchie de la terminologie Ce qui correspond l attribut level de la CIM10 niveau de la CCAM et axe de la SNOMED Les niveau hier Q qualificatif D Descripteur TR type de ressource MT m taterme ont t cr s pour le MeSH et CC concept complexe CE concept l mentaire pour le TUV L at
6. De la m me fa on nous avons calcul la pr cision et le rappel Pereira07 voir figure A 7 Seulement 110 m tatermes ont t pris en compte Pour la CIM10 Manuellement Automatiquement 13 650 paires code CIM10 metaterme 2250 a5 m tatermes par code CIM10 0 7 Moyenne de 1 52 m tatermes par code 1 46 Pour 109 codes CIM10 aucun m taterme n a t associ Pr cision Rappel FIGURE A 7 R sultats de la comparaison entre le transcodage manuel et automa tique A 5 D monstration Les boutons contextuels ont t cr s et int gr s en environment de test au lo giciel CDP2 logiciel du dossier patient lectronique actuellement en place au CHU de Rouen Massari00 Ce logiciel pr sente les dossiers sous forme d une arbores cence v nementielle aux normes HISA Patients Episodes S jours Actes Ils ont t programm s en VB Visual Basic language informatique utilis dans CDP2 La recherche est d pendante du profil de Vutilisateur on montre donc 3 exemples connexion en tant que m decin en tant qu tudiant et en tant que patient ceci a partir de la fiche des diagnostics CIM10 et de la fiche de synth se Connexion en tant que m decin La connexion au logiciel se fait grace une fen tre de connexion voir figure A 8 Cette identification permet de conna tre le profil de l utilisateur ici un m decin Pour atteindre la fiche des diagnostics d un patient il faut to
7. Plovnick R Zeng Q Reformulation of Consumer Health Que ries with Professional Terminology A Pilot study J Med In ternet Red 2004 6 3 e27 Porter M An algorithm for suffix stripping Program 1980 14 3 130 137 Pouliquen B Indexation de textes m dicaux par indexation de concepts et ses utilisations Ph D thesis Universit Rennes 1 2002 Prieur E M thodes et structures de donn es pour l indexation et la d tection de r p titions dans les s quences biologiques les vecteurs de suffixes Ph D thesis Universit de Rouen 2007 Rector A Rogers J Zantra P Van der Haring E OpenGalen Open Source Medical Terminology and Tools AMIA Annu Symp Proc 2003 982 219 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Roche05 Rodrigues05 Rolling80 Rosse03 Roussey01 Ruch03 Ruch04 Sager95 Salton73 Salton83 Salton89 Schank8 1 Schatz97 Seroussi04 SFMG96 Roche C Terminologie et ontologie LAROUSSE revue lan guage 2005 157 Rodrigues J Trombert Paviot B Martin C P V Integrating the Modelling of EN 1828 and Galen CCAM Ontologies with Prot g towards a Knowledge Acquisition Tool for Surgical Procedures Stud Health Technol Inform 2005 116 767 72 Rolling L Indexing consistency quality and efficiency Infor mation Processing and Management 1980 69 77 Rosse C Mejino J J A reference ontology for bio
8. indexation hs 55 Late Nes SAN EN SAN Es 87 3 7 1 Identification des rubriques 88 3 7 2 Identification des paragraphes 88 3 7 3 Identification des phrases 44 4 ds du bu date eo ee RE a 89 48 M thodes mises au point 65 see eb eee eee eee eee ee 91 3 8 1 Algorithme du sac de mots 245 4224 226288248404 91 3 8 2 M thode du dictionnaire de termes 98 3 8 3 M thode du dictionnaire de constituants 105 3 9 Prise en compte des contextes 107 3 9 1 Prise en compte des n gations 107 3 9 2 Prise en compte des rubriques 109 3 10 Fusion des indexations produites par les trois m thodes 110 3 11 Restriction une ou plusieurs terminologies 110 3 12 Post traitement 44 4 4 4 4 bal e RE due et 4D EOS 111 3 13 Param tres et l ments en sortie 112 3 13 1 Param tres RS LR ESA we Ee Res r er is 112 313 2 Sortie saa ss emna op o maa a aa Oe DURS a 112 3 14 Conclusion ooa a 0 a a a 113 TABLE DES MATIERES vii 4 valuation de l indexeur multi terminologique 114 4 1 Introduction o s ea ee BS s s Ot ee eS OE oe ORO eae 114 4 2 Evaluations r alis es 2 114 4 2 1 Evaluation de diff rentes m thodes de d suffixation 114 4 2 2 valuation de l extraction de termes CIM10 et CCAM pour les dossiers patients Re Pe oe ee Ome ee
9. la cr ation de r sum s partir du codage CIM10 Lovis96 148 Chapitre 5 Applications du F MTI Section 5 4 Indexation automatique de ressources Web ou du m me paragraphe et d ordonner les v nements selon les conjonctions de su bordination retrouv es Elles pourraient tre aussi restreintes une sp cialit m dicale Ce r sum serait cr partir de l ensemble des comptes rendus r dig s pour un patient au cours de ses s jours l h pital L exercice du r sum consiste aussi d terminer ce qui est important et perti nent dans le cadre du suivi du patient de ce qui ne l est pas L est la difficult et aucun outil n est encore au point pour la surmonter Afficher toutes les allergies les probl mes r cents ou chroniques et les m dications associ es tous les ant c dents familiaux recens s ainsi que les v nements pr vus dont la date est inf rieur la date du jour semble tre une premi re piste creuser L interface pour les r sum s devrait tre am lior e impl ment e et valid e avec les professionnels de sant Nous pouvons imaginer de la m me fa on une g n ration automatique de lettres partir d une indexation une lettre destin e un patient les synonymes patients seront privil gi s ou un coll gue professionnel de sant les termes techniques peuvent tre conserv s Un des principaux probl mes identifi s comme rendant difficile l indexatio
10. lt bact riologie gt L quipe a aussi cr leurs liens s mantiques avec 0 n descripteurs qualificatifs et types de ressources exemple le m taterme canc rologie gt est li au descripteur vaccins anticanc reux gt au qualificatif lt ra dioth rapie gt et au type de ressource service oncologie h pital gt voir figure 2 6 La terminologie CISMeF comporte 274 m tatermes Les m tatermes permettent lors 38 Chapitre 2 Etat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation de la recherche d information de prendre en compte tout un ensemble de descripteurs afin de pr senter d avantage de ressources a l utilisateur dans le catalogue CISMeF Gehanno07 Certains termes peuvent tre la fois descripteur et qualificatif exemple lt th rapeutique gt voir aussi la fois qualificatif et type de ressource et descripteur ou qualificatif et m taterme 2 4 1 3 R gles d indexations lt CISMeFiennes gt Comme nous l avons dit pr c demment l indexation d une nouvelle ressource dans le catalogue CISMeF consiste cr er une notice voir un exemple figure 1 2 pour cette ressource Cette notice contient toutes les m tadonn es qui permettront au moteur de recherche de pr senter et de retrouver la ressource dans CISMeF L indexation consiste entrer pour une ressource le titre les auteurs l URL le format le site diteur le pays d origine e
11. theseurus_idichar concept Idi char concept _id char conceptLexical Altemative_name char ai concept concept_name char F z Lena reli s par t h ajouter xvoid relation_concept_typechar concept_type char concept _semanticLabel char ajouter void contraint par Relation_semanticLabel relation_concept_typeint concept _semanticLabel tint concept _semanticLabel2 int FIGURE 3 3 Diagramme de classes repr sentant la structure du TUV au formalisme UML Mod les unitaires Classe des Thesaurus thesaurus TUV Classe des Concepts Cette classe r unie tous les termes l mentaires d crivant un terme de r f rence du TUV Classe des Group cette classe d signe les liens d appartenance d un terme d indexation un groupe d indications Classe des Classification_X cette classe renseigne tous les liens reliant un terme de r f rence ou un terme l mentaire d autres terminologies telles que cette classe r unie tous les termes de r f rence du 81 Chapitre 3 Conception de l extracteur multi terminologique Section 3 4 Mod lisation des terminologies CIM10 la CISP ou la SFMG Classe des Thesaurus_Lexical_Alternative Cette classe indique toutes les variantes lexicales flexionnelles et synonymiques pour chaque terme d in dexation terme complexe Classe des Concept Lexical Alternative cette classe indique toutes les variantes lexical
12. variante5 EE ER composition variantes variantes lt C Avariantes Le utilisation de fansducteurs Terminologie FIGURE 2 22 L indexation par les m thodes de TAL Utilisation du contenu des terminologies Une des m thodes est la construction a priori de la liste de l ensemble des corres pondances entre les termes de la terminologie et les expressions en langue naturelle correspondantes Certaines terminologies contiennent d ja un grand nombre de ces correspondances en liant chaque concept repr sent par un terme pr f r leurs synonymes quivalence s mantique et leurs variantes morphologiques quivalence morphologique des r f rences ou compositions quivalence s mantique pour la terminologie SNOMED des liens de hi rarchies pour des termes proches proximit s mantique en globement s mantique Mais celles ci sont en nombre insuffisant pour couvrir la r alit Le projet VUMeF qui s inscrivait dans la suite du projet UMLF avait pour but d tendre la part du fran ais dans le m tath saurus UMLS projet RNTS 2003 Darmoni03b collaboration notamment entre l quipe du LERTIM la soci t 53 M tath saurus de l Unified Medical Langage System contenant plus de 100 terminologies m dicale en diff rentes langues 64 Chapitre 2 tat de l art Section 2 5 Aide l indexation Vidal et l quipe CISMeF Pour
13. ATIH Ce type d outil qui reste encore d velopper pourrait alors am liorer la qualit du codage m dico conomique ainsi que la repro ductibilit du codage lib rer du temps pour les praticiens faire correspondre la valorisation financi re du s jour avec le co t r el et rendre le codage conforme aux r gles qui sont difficiles appr hender par les m decins 5 3 2 Structuration des informations du dossier patient Seuls les l ments n cessaires pour le recueil de donn es m dico conomiques sont pour le moment structur s diagnostics et actes utiles la classification des s jours dans des groupes de tarification Pourtant il y a un r el besoin de structurer l ensemble des informations du dossier patient lectronique pour r aliser tous les traitements informatiques n cessaires en vue d une pr sentation claire du dossier m dical du patient d am liorer la prise en charge des patients g n ration d alertes dans le cadre du suivi du patient d aider le m decin prendre des d cisions outils d aide la d cision de contr ler l activit de rechercher des informations de produire des donn es pour les tudes pid miologiques 2 Agence Technique de l information sur l Hospitalisation 145 Chapitre 5 Applications du F MTI Section 5 3 Indexation automatique de dossiers patients de communiquer des donn es entre professionnels de sant
14. But Cette classe renseigne tous les liens reliant un terme de r f rence ou un terme l mentaire d autres terminologies telles que CIM10 la CISP ou la SFMG Les attributs L attribut id d signant le code du terme TUV terme de r f rence ou terme l mentaire est associ un idX code d une autre terminologie indiqu par la source classiffication X Commentaires Un terme du TUV peut tre transcod en 0 n codes d autres terminologies Classe des Thesaurus Lexical Alternative But Cette classe indique toutes les variantes lexicales flexionnelles et syno nymiques pour chaque terme d indexation terme complexe Les attributs Au thesaurus_id d signant le code TUV du terme d indexation peut tre as soci un thesaurusLexicalAlternative id qui indique le code de la variante du terme d indexation et un thesaurusLexicalAlternative name le li bell de la variante Commentaires Le libell du terme de r f rence est consid r comme une variante possible Un terme de r f rence peut tre reli 1 n variantes Classe des Concept Lexical Alternative But Cette classe indique toutes les variantes lexicales flexionnelles et syno nymiques pour chaque terme l mentaire Les attributs De m me au concept_id d signant le code TUV du terme l mentaire peut tre associ un concept Lexical Alternative id qui indique le code de la variante du terme l me
15. Ces correspondances sont produites manuellement par l quipe CISMeF revues par l quipe Vidal et mises jour r guli rement A partir de ces requ tes a t cr le transcodage terme de recherche Vidal termes MeSH 2 947 correspondances Ce transcodage permet l approfondisse ment de la requ te ainsi que l interrogation des autres sites voir l onglet lt appro fondir recommandations internationales figure 7 7 Pour chaque site PubMed 20 Pour tester une recherche sur 3 lt recos gt voir http www vidalrecos fr pages index php 21 Ce travail est issu d une collaboration Vidal CISMeF 22 T che laquelle j ai particip dans l quipe Vidal 23 Accessible ici http www ncbi nlm nih gov entrez query fcgi 179 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 5 Recherche translangue VIDAL L essentiel sur les recommandations th rapeutiques AT ee VIDAL Recos Acc s Libre f S abonner Nous contacter Les Recos gt M nopause traitement hormonal i Recherche TA se en charge ER ea m nopause et traitemen ie Arbre d cisionnel once aux patents savoir ER ARE les Faces M nopause traitement hormonal Quels patients traiter Recherche de troubles du cimat re Objectifs de la prise en charge Traitements R f rences Mise jour 07 07 2008 Recherche d un
16. Donn es Cliniques Indications th rapeutiques index es avec le type lt INDIC gt Contre indications index es avec le type lt CI gt Une contre indication est typ e comme lt absolue gt ou lt relative gt Mises en garde et pr cautions d emploi index es avec le type lt PE gt On distingue deux types de termes d indexation ceux concernant tout pa tient terrain physiologique donc mise en garde et ceux li s un type de patient tat pathologique particulier donc pr caution d emploi Pour les pr cautions d emploi sont r pertori s les termes correspondant a des tats patients physiologiques ou pathologiques susceptibles de g n rer des alertes exemple Insuffisance r nale Diab te Enfin une pr caution d emploi peut tre li e une indication l indication est alors consid r e comme un tat du patient et doit tre index e comme telle Grossesse et Allaitement index avec le type lt CI gt ou lt PE gt selon les cas Conduite et utilisation de machine index e si besoin avec le type lt PE gt Effets ind sirables index s avec le type lt EIT La fr quence d un effet ind sirable peut tre pr cis e tr s fr quent fr quent peu fr quent rare tr s rare Interactions m dicamenteuses peut contenir des termes indexer avec le type lt PE gt Surdosage index avec le type lt EII gt Pour compl ter l indexation des liens dits
17. FORRA E10 5 Diab te sucr insulino d pend avec complic vasculaire perip Cat gorie 4 caract res oo E10 6 Diab te sucr insulino d pend avec autre complication pr cis e PE OTS E10 7 Diab te sucr insulino d pend plus complications multiples apii E10 8 Diab te sucr insulino d pendant avec complic non pr cis Extension ueser E10 84 D compensation d un diab te sucr insulino d pendant PREDA E109 Diab te sucr insulino d pendant sans complication sens E11 Diab te sucr non insulino d pendant RE E12 Diab te sucr de malnutrition ORES E14 Diab te sucr SAI saut E23 Hyposecretion et autres anomalies de l hypophyse 5 F00 F99 Troubles mentaux du comportement FIGURE 2 10 Extrait de la classification CIM10 Toute position dans la hi rarchie CIM10 est repr sent e par Un seul code CIM10 Les codes pouvant contenir jusqu 5 caract res ou digits se d composent de la mani re suivante Le premier caract re est une lettre majuscule variant de A Z sauf la valeur U Celui ci est associ au chapitre Les caract res 2 et 3 sont num riques de 00 99 et d signent une cat gorie Le caract re 4 est toujours pr c d d un point il est num rique de 0 9 et d signe une sous cat gorie Le caract re 5 est num rique de 0 9 et d signe une subdivision Les codes des extensions peuvent comporter des lettres en guise de 5 me ca ra
18. Le deuxi me ne conserve que la deuxi me expression la premi re expression et le ou gt sont limin s Les mots entre parenth ses ne sont pas confondre avec certaines pr cisions qui sont aussi entre parenth ses et qui sont conserver exemple pour le terme maladie par VIH l origine d ad nopathies g n ralis es persis tantes gt ou des l ment optionnels ou des alternatives Il faut donc dans un premier temps pour traiter ces termes les faire analyser par un expert qui va d terminer dans quelle cat gorie se place le terme Puis un traitement informatique peut tre mis en place pour chaque cas Nous avons trait une centaine des ces termes en les s lectionnant manuellement puis en les trai tant automatiquement mais les autres n cessitent l intervention d un expert et seront trait s dans le futur Pour les termes contenant des expressions en lt et gt exemple lt L sions trau matiques superficielles multiples de la cheville et du pied gt nous consid rons que cela implique des l ments indissociables aucun libell d indexation al ternatif n est donc cr Malheureusement dans certains cas le lt et gt peut avoir le sens lt ou gt de la m me fa on ces cas devrons dans le futur tre rep r s par un expert et trait s comme des alternatives D autres expressions peuvent poser probl me telles que lt localisation unique gt ou lt deux doigts ou plus gt exem
19. Massari P Darmoni S Joubert M Evalua tion de plusieurs terminologies m dicales pour optimiser l aide au codage m dico conomique par analyse automatique de dossiers lectroniques de patients In Acte EMOI2006 2006 A 8 Posters nationaux et internationaux Pereira08 Pereira S Massari P Joubert M Serrot E Darmoni S J Exploring multi terminology indexing of discharge summaries Poster MIE2008 2008 Pereira08 Pereira S Massari P Buemi A Dahamna B Serrot E Joubert M Darmoni S J Evaluation of two french snomed indexing systems with a parallel cor pus Poster 3rd international conference on Knowledge Representation in Medicine KR MED 2008 Pereira07 Pereira S Indexation multi terminologies Journ e des doctorants du laboratoire LITIS 2007 Pereira05 Pereira S N v ol A Massari P Darmoni S J Evaluation de plu sieurs terminologies m dicales pour optimiser laide au codage m dico conomique par analyse automatique de dossiers lectroniques de patient ASTI2005 Clermont Ferrand 2005 Darmoni08 Darmoni S J Pereira S N v ol A Massari P Dahamna B Letord C Kedelhu G Piot J Derville A Thirion B French info button an academic and business perspective AMIA Symp en cours de publication 2008 Thirion07 Thirion B Pereira S N v ol A Dahamna B Darmoni S J French MeSH browser a cross language tool to access Medline Pubmed AMIA annual symposium pag
20. a i RI ati Index alphabetique Index alphab tique Index t iatiqus lab Index th matique CHU H pitaux de Rouen Outil de recherche Quoi de neuf Simple Avanc e Terminologie A propos de SZ sz 5 modes de recherche Equipe H Publications ij Partenaires Avertissement Catalogue et Index des Sites M dicaux Francophones Acc s par type de ressources Recommandations et ur Consensus ign t Formation Ce catalogue s adresse en priorit aux professionnels de sant On y trouve galement des informations destin es aux patients et leurs familles Pour d clarer un nouveau site Web remplir SVP le formulaire Ce site adh re aux principes de qualit du NetScoring voir aussi pr i onn es personnelles FIGURE 1 1 Le site CISMeF Le site CISMeF est un site assez populaire puisque le nombre d utilisateur unique se connectant CISMeF est d environ 27 000 par jour ouvr dont 37 8 en France et 38 4 en Alg rie Le catalogue CISMeF est aussi un important fond documentaire qui contient plus de 47 000 ressources avec une grande diversit de formes recommandations cours sites d association de patients forum etc et de formats documents PDF sites Web documents PowerPoint etc L essentiel du travail de l quipe consiste en la maintenance et la mise jour du catalogue ainsi que son am lioration et son volution tant en termes de technologies 9 L
21. ad quation terminologique entre la CIM10 et le MeSH est plus grande que celle entre le MeSH et la CCAM le MeSH ayant t cr la base partir de la CIM Une autre tentative de transcodage automatique a t r alis e chez Vidal entre une terminologie ic nographique VCM Lamy06 et les termes du TUV mais ceci n a pas donn de bons r sultats car les libell s VCM contiennent des notions tr s g n rales Notre m thode permet de d obtenir un transcodage unidirectionnel les termes de la terminologie index e tant le point de d part Plusieurs tudes ont montr que l on pouvait utiliser un outil d indexation automatique pour d terminer des transcodages Min06 Il existe des m thodes lexicales et s mantiques utilisant le r seau s mantique de l UMLS Fung05 160 Chapitre 5 Applications du F MTI Section 5 10 F MTI multilingue 5 9 F MTI multilingue F MTI pourrait ais ment tre appliqu d autre langues sous r serve de disposer d une terminologie traduite dans cette langue terminologie qu il faudra int gr la base de donn es mutli terminologique d une liste de mots vides de la langue d un outil de d suffixation dans la langue d sir e Un exemple de langage possible est l anglais avec l int gration du MeSH anglais de nombreuses listes de mots vides ont d j t d velopp es par d autres quipes et l algorithme de Porter permet une bonne d suffixation
22. asthme asthme TUV PATHO 1 ms Apres limination des doublons et ajout des poids pour chaque terme nous obte nons un poids de 2 pour lt syndrome de Down gt un poids de 1 pour lt syndrome de Wolfram gt et un poids de 1 pour lt asthme gt Seuls les termes ayant un poids gal au nombre de lemmes le constituant sont index s pour la phrase Donc seuls les termes syndrome de Down gt et lt asthme gt seront index s pour cette phrase Pour que cette m thode fonctionne il faut que tous les constituants pour un terme soient uniques et non inclus dans un autre constituant Un autre filtre doit donc tre appliqu avant le calcul du poids pour chaque terme Ce filtre limine tout constituant inscrit dans un autre constituant et dont le poids est plus faible que celui ci 27 3 8 3 3 Points forts et points faibles de la m thode du dictionnaire de constituants Par rapport aux deux autres m thodes cit es pr c demment la m thode du dic tionnaire de constituants permet de prendre en compte un plus grand nombre de variantes potentielles De la m me mani re que pour la m thode du dictionnaire de termes le temps d indexation est rapide En revanche la taille du dictionnaire est limit e pour le logi ciel NooJ Afin de poursuivre nos travaux pour cette m thode et ajouter l ensemble des constituants il faudra changer de logiciel ou de m thode ici les travaux de E Prieur pourront tre utilis s Prieur07
23. dages meilleure aggr gation des proposition d indexation de nos diff rentes m thodes ins rer les constituants de poids sup rieur 1 impl mentation de transducteurs pour les termes compliqu s cr er des r gles m dicales ajout des relations SNOMED CT combinaison de termes SNOMED ajouter les r les des termes largissement des notions de contexte impl ment es traitement des ambiguit s analyse s mantique pr sentation des informations r sum s associations d id es provenant de diff rentes localisations dans le compte rendu calcule de scores A l occasion de cette th se les collaborations de l quipe CISMeF avec la NLM et le centre de recherche du Lister Hill en particulier cr ateur de MTI ont perdur Elles vont s intensifier ces prochaines ann es puisque nous envisageons d impl menter les m thodes de MetaMap pour le fran ais pour optimiser les r sultats de F MTI Ces travaux se d rouleront dans le cadre d une autre th se 6 5 2 Poursuite des travaux Les travaux doivent tre poursuivis d autres valuations sont n cessaires comme la comparaison de nos m thodes d indexation et l valuation des performances lorsque plusieurs m thodes sont combin es Ceci pourra se faire avec les corpus d j constitu s et en consid rant l indexation d une ou de plusieurs terminologies 6 5 3 Ouverture importante pour les diff rentes quipes 6 5 3 1 Un CISMeF multi terminologique Cette
24. la requ te lt Agranulocy tose mc et patient tr gt voir figure A 11 Connexion en tant qu tudiant De m me si l utilisateur est un tudiant et qu il clique sur le bouton CISMeF c t du diagnostic lt troubles mentaux gt dont le code est F99 la requ te lt troubles mentaux mc et mat riel p dagogique tr gt est lanc e 202 Chapitre A Annexes Section A 5 D monstration he omn tae tipe om t Or D ai tete Fm Bae OS apama E me oaa m FN ar pee EEA E RE ms oe 0 AEAN all E A AS CiSMeF R sultat de la recherche sur Doc CISMeF bg my oad Apec de han Danar Pecans mou masida kaites gahan cnd cnu avan recherche bowtoenen oa mynstt c Stou ma iaaa Oe dieti aeg Oami QD EESEEDIEIII mi e rainn me pme te de omis pd me FIGURE A 10 Page CISMeF avec les listes des documents correspondant la requ te lt Agranulocytose mc et recommandations tr gt gene E ea ge eg ee ned pd ere mm a aras CiSMeF R sultat de ta recherche sur Doc CISMeF LS Amna to anns nee QUE pent Tet oan Lu it en anodin seen boissons et pme dires tas adm ansant Comer QD requ tes messes GIDD i 0 limna eredate at 1 baaton de nienia de posre ESTEE mnt me tt tee ee a meni oCUMeNts Le pe Pin ett weston di log asa EN RE F remous ten ertain aT 3 JA 3 Bape T F nes cecece FIGURE A 11 Page CISMeF avec la liste des documents correspon
25. plus JMLA Journal of the Medical Library Association 2002 90 2 248 253 Darmoni S J Amsallem E Haugh M Lukacs B Leroux V Thirion B Weber J Boissel J P Level of evidence as a future gold standard for the content quality of health resources on the internet Methods Inf Med 2003 42 220 225 Darmoni S J Jarrousse E Zweigenbaum P Le Beux P Na mer F Baud R Joubert M Vall e H C t R A Buemi A Bourigault D Recource G Jeanneau S Rodrigues J M VUMeF extending the French involvement in the UMLS Me tathesaurus AMIA Annu Symp Proc 2003 824 Darmoni S Thirion B Ionut Florea F Rogazan A Letord C Kerdelhu G Dacher J Affiliation of a resource type to a MeSH term in a quality controlled health gateway Stud Health Technol Inform 2007 Darmoni S Pereira S N v ol A Massari P Dahamna B Letord C Kedelhu G Piot J Derville A Thirion B French Infobutton an academic and business perspective AMIA Annu Symp Proc 2008 en cours de publication Deerwester S al Indexing by Latent Semantic Analysis Jour nal of the American Society for Information Science 1990 41 391 407 Degoulet P fieschi M Informatique m dicale 1998 Dekkers M Weibel S State of the Dublin Core Metadata Ini tiative D Lib Mag 2003 v9 n40 Del Fiol G Rocha R Clayton P Infobuttons at Intermountain Healthcare Utilization and Infrastructure AMIA Annu Symp Proc
26. 3 9 Prise en compte des contextes 3 9 1 Prise en compte des n gations Il est important dans l indexation d un document non seulement de rep rer tous les termes pr sents mais aussi d identifier parmis eux ceux qui sont inclus dans une n gation ou une exception Ceci est important pour l indexation de comptes rendus ou de RCP puisqu il est n cessaire de d terminer les l ments cart s maladies effets secondaires Par exemple pour la phrase lt Aucune suspicion d accident vascu laire c r bral gt les termes D020521 MeSH D3 89550 SNOMED 61 TUV 164 CIM10 accident vasculaire c r bral gt doivent tre index s avec un type lt n gatif gt Plusieurs outils permettant d indentifier des n gations sont cit s dans la litt rature La plupart de ces syst mes se basent sur les expressions et les conjonctions marquant 27 Ce filtre utilise une table d inclusion qui indique pour chaque couple de constituants le constituant a liminer si les deux sont retrouv s pour la m me phrase 28 Mais ceci n a aucune utilit pour l indexation de ressources Web puisque m me si le sujet est trait de mani re n gative il est trait dans la ressource donc il doit tre index 107 Chapitre 3 Conception de l extracteur multi terminologique Section 3 9 Prise en compte des contextes la n gation Les travaux Chapman01 et Elkin05 listent ces expressions pour l an glais exemple absence
27. Accessible ici http clinicaltrials gov 11 Orphanet est un serveur d information en libre acc s pour tout public sur les maladies rares et les m dicaments orphelins Accessible ici http www orpha net 12 Fondation Health On the Net La Sant sur Internet est une fondation dont l objectif est de promouvoir le d veloppement et les applications de nouvelles technologies d information notamment dans les domaines de la m decine et de la sant Accessible ici http www hon ch 13 Intute est un portail de ressources de qualit en sant pour les tudiants et professionnels de sant Accessible ici http omni ac uk 14 HealthInSite est un portail de ressources de qualit en sant et concernant essentiellement le diab te le cancer l asthme et la sant mentale Accessible ici http www healthinsite gov au 15 Google est le moteur de recherche sur Internet le plus utilit dans le monde aujourd hui Accessible ici Un partenariat avec CISMeF a permis de restreindre l acc s de Google une liste de sites de quali pour le domaine m dical http www google com custom hl fr amp lr lang_ fr amp client google coop np amp cof AH et pour les m dicaments http www google com coop cse cx 015430007758165987576 3Ab3cmgan4uaskhl fr 172 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 2 Acc s contextuel la connaissance a partir du dossier patient
28. Evaluations r alis es Nombre de digits Pr cision pris en compte FIGURE 4 8 R sultats de l valuation de indexation automatique produite par F MTI compar e l indexation manuelle m dico conomique des 304 comptes rendus de Pneumologie Les r sultats sont diff rents selon le secteur choisi voir figure 4 7 et 4 8 Ainsi P valuation de l indexation automatique pour les comptes rendus de Cardiologie montre une pr cision de 3 0 et un rappel de 35 7 Alors que pour les comptes rendus de Pneumologie on obtient 4 0 pour la pr cision et 19 9 pour le rappel PNEUMO Nombre de digits Pr cision Rappel Pr cision Rappel pris en compte 5 51 3 75 4 FIGURE 4 9 R sultats de l valuation de l indexation automatique produite par F MTI compar e l indexation manuelle m dico conomique en ne consid rant que les diagnostics et les termes reli s la sp cialit lt cardiologie gt ou lt pneumologie gt selon le secteur d origine des comptes rendus Une deuxi me valuation ne prenant en compte que les termes reli s la sp cialit lt pneumologie gt ainsi qu aux types lt diagnostics gt et sympt mes gt pour l indexation des comptes rendus de Pneumologie a t ff ctu e Pour les comptes rendus de Cardiologie restreints aux termes reli s la sp cialit cardiologie la pr cision obtenue est de 15 4 et le rappel de 76 7 pour l extraction d
29. LINE PubMed Stud Health Technol Inform 2007 817 21 Friburger N Dister A Maurel D Am liorer le d coupage en phrase sous INTEX In Actes des troisi mes journ es Intex Revue Informatique et Statistiques dans les sciences humaines 36 2000 1 4 181 200 Friedman C Shagina L Lussier Y Hripcsak G Automated Encoding of Clinical Documents Based on Natural Language Processing J Am Med Inform Assoc 2004 11 392 402 Fujii H Yamagishi H Ando Y Tsukamoto N Kawaguchi O Kasamatsu T Kurosaki K Osada M Kaneko H Kubo A Structuring of Free Text Diagnostic Report Stud Health Technol Inform 2007 669 85 Fung K Bodenreider O Utilizing the UMLS for Semantic Map ping between Terminologies AMIA Annu Symp Proc 2005 Funk M Reid C McGoogan L Indexing consistency in MED LINE Bull Med Libr Assoc 1983 2 71 176 183 212 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Funk83b Gaudinat02 Gaussier99 Gay05 Gehanno07 Giorgi05 GIP DMP07 Goldin03 Grabar00 Gutnik07 Halleb97 Happe03 HathoutO2a Hathout02b Funk M Reid C McGoogan L Indexing consistency in MED LINE Bull Med Libr Assoc 1983 176 83 Gaudinat A Boyer C Baujard V Ruch P Evaluation de l ex traction de termes mesh pour les systemes de recherche d infor mation dans le domaine m dicale In Actes des 9i mes Journ es Francophones d Informatique M di
30. Nous avons montr dans une autre tude Pereira06 que le codage des m dicaments pouvait aider l indexation de comptes rendus en CIM10 Il peut aussi mettre en vidence des incoh rences entre prescriptions et diag nostics exemple un m dicament ayant t pr scrit pour un diagnostic non renseign ou un diagnostic n tant trait par aucune m dication Ces travaux pourront tre repris pour l analyse des donn es produites par F MTT Dans le m me orde d id e nous pouvons contr ler plusieurs param tres par exemple si chaque acte correspond bien un diagnostic en utilisant la table de transcodage CCAM CIM10 voir section 5 8 ou des tables de co occurences rechercher des informations La structuration des donn es facilite la recherche d information Le m decin peut rechercher quel m dicament est le plus utilis au sein de l h pital pour le traitement de l asthme les patients donneurs d organes quels patients ont besoin d une appendicectomie pour pouvoir organiser les op rations etc ce qui peut rendre plus ais son activit de tous les jours 3 La terminologie LOINC Logical Observation Identifiers Names and Codes permet de d crire les observations produites en laboratoire 4 L objectif de MedDRA Medical Dictionary for Drug Regulatory Activities est de d crire toutes les tapes du d veloppement des m dicaments et les probl mes li s aux affaires r glementaires Il inclut des termes pou
31. On the Net D autres projets comme les projets xGA multiple x Guideline Applications ont consist mettre en oeuvre des Guides de Bonnes Pratiques Cliniques informatis s Dufour05 Enfin afin de permettre un meilleur acc s l information et une meilleure ac quisition des connaissances une partie des travaux de recherche t r alis e sur la m diation des savoirs au sein du consortium UMVF Joubert07b L UMVF a pour objectif de favoriser les usages p dagogiques des Technolo gies de l Information et de la Communication pour les formations initiales et continues des professionnels de sant Le deuxi me axe est le soutien la recherche clinique et aux recherches en biostatistiques Les travaux de recherche clinique ont concern la recherche de facteurs pronostiques notamment en canc rologie avec le projet MEDus L objectif de ce projet tait d valuer diff rentes m thodes d estimation de la survie de proposer des conseils pratiques aux utilisateurs et de proposer des nouvelles extensions des mod les existant ou bien de nouvelles techniques d analyse Giorgi05 1 3 3 3 Les besoins L quipe du LERTIM travaille am liorer l acc s aux informations contenues dans les parties textuelles des dossiers m dicaux lectroniques Cette am lioration pourrait tre obtenue par la structuration des donn es textuelles contenues dans le dossier patient lectronique et l int gration d un moteur de
32. Pereira06 Pereira S Thirion B Kerdelhu G Letord C Dahamna B N v ol A Piot J Darmoni S J Connaissance contextuelle et personnalis e Valorisation aupr s de l universit de Rouen A 12 Non encore publi s Pereira Pereira S Massari P Buemi A Dahamna B Serrot E Joubert M Darmoni S J Evaluation of two French SNOMED indexing systems with a parallel corpus Letord Letord C Sakji S Pereira S Dahamna B Kergourlay I Darmoni S Un portail d information sur le m dicament en Europe 226 Table des figures 1 1 1 2 1 3 1 4 1 5 2 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 2 9 2 10 2 11 2 12 2 13 2 14 2 15 2 16 2 17 2 18 2 19 2 20 Le site CISMeF sisi ss die mn ee ed oR RE ri hrs 4 Exemple d une notice courte 1 a 5 Exemple de recherche simple avec Doc CISMeF T Les diff rents projets de l quipe CISMeF 8 Exemple d une alerte concernant une int raction m dicamenteuse d tect e l aide du logiciel VidalExpert 13 Sch ma de la recherche documentaire inspir de Roussey01 22 Exemple de terminologie en noir les relations de hi rarchie lient un terme g n ral un terme plus sp cifique en rouge une relation de composition lie un terme l mentaire un terme plus complexe 29 Exemple d une ontologie 31 Les concepts de PUMLS 4 44 4 64 2s dune wee va
33. Silberztein93 pour d terminer la position d une fin de phrase mais celui ci ne permet pas de r cup rer la phrase mais bien la position de celle ci Nous avons donc cr un transducteur NooJ Silberztein04 voir figure 3 5 en nous inspirant du transducteur INTEX que nous nous sommes procur s aupr s des auteurs Ce transducteur a t cr en collaboration avec M Silberztein cr ateur du logiciel NooJ qui a int gr de nouvelles fonctionna lit s dans NooJ afin de rendre la cr ation de ce transducteur possible Pour trouver o se situe le d but et la fin d une phrase nous pouvons nous ba ser sur la ponctuation Mais cela n est pas si simple le point est un signe ambigu Silberztein93 Dister97 Le transducteur cr permet d extraire les phrases d un texte qui correspondent aux crit res suivants Le d but d une phrase peut tre marqu par un d but de paragraphe lt gt un tiret ou un guillemet un tiret suivi d un guillemet un mot commen ant par une majuscule lt CAP gt enti rement en lettres majuscules lt UPP gt ou un nombre lt NB gt une exception voir figure 3 6 les nombres d cimaux exemple lt 3 14 gt les sigles exemple lt C G T gt voir figure 3 7 les titres de personnes exemple M Henri voir figure 3 8 et les abr viations exemple cf gt voir figure 3 9 constituent des exceptions car ils pr sentent un signe de fin d
34. anglais fran ais et le site qu il pr f re Chaque site son propre moyen d interrogation que l utilisateur ne ma trise pas forc ment certains permettent l utilisation de bool ens OR NOT etc d autres non L ex pertise de l quipe CISMeF a permis d laborer pour la cinquantaine de sites un 174 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 2 Acc s contextuel la connaissance partir du dossier patient mod le de requ tes appropri pour chacun exemple requ te d un utilisateur in terpr t e par le moteur de recherche CISMeF comme quivalent au terme MeSH lt asthme pr vention et contr le gt sera transform e en lt asthma PC MeSH Terms OR asthma bronchial Tiab OR asthmas Tiab OR asthmas bronchial Tiab OR bronchial asthma Tiab OR bronchial asthmas Tiab AND PC Tiab NOT MEDLINE SB gt si Vutilisateur approfondi sa recherche en cliquant sur le site Pubmed Pour une d monstration vous pouvez consulter l Annexes D monstration 7 2 4 Valorisation industrielle Nos boutons d information contextuels ont t valoris s 16 l universit de Rouen puis commercialis s par la soci t priv e IS S 7 Darmoni08 Un bouton d in formation sp cifique aux professionnels de sant en secteur priv est en cours de d veloppement En fevrier 2008 les boutons d inf
35. ant c dent d Accident vasculaire c r bral PATHO Termes Diab te PATHO l mentaires Ant c dent ATCDT Accident vasculaire c r bral ant c dent Accident vasculaire c r bral PATHO Ant c dent ATCDT gt Accident vasculaire c r bral ant c dent r cent Accident vasculaire c r bral PATHO Ant c dent r cent ATCDT VARIANTES Ant c dent d ave chez le sujet diab tique ant c dent d accident cardiovasculaire chez le patient diab tique Pvc FIGURE 2 7 Extrait du TUV Les termes l mentaires peuvent poss der des synonymes et des variantes lexi cales Ces termes l mentaires peuvent tre combin s pour former de nouveaux termes de r f rence s ils sont significatifs pour l indexation des RCP Les diff rents types de termes l mentaires sont les tats tat primaire ou secondaire lt primaire gt pour l tat trait lt secon daire gt pour l tat pr existant les compl ments CT ce sont des qualificatifs Chaque terme l mentaire est rattach une tiquette s mantique pr sentant son type et son sens exemple le terme l mentaire lt s v re gt a pour tiquette lt CT NIV GRAV gt qui signifie que le terme est un compl ment appartenant la hi rarchie lt niveau de gravit autre exemple le terme l mentaire dermatite atopique gt a pour tiquette lt ETAT PATHO Primaire gt ce qui signifie que le terme est un
36. ant c dents alors phrase ajout phrase ant c dent FinSi phase de normalisation de la phrase et d coupage en mots phrase normalis e lt minusculiser phrase phrase normalis e lt traduction phrase normalis e EEEEAAATIUULUNOOOOOC 88243 Siti6dd680 phrase normalis e lt remplacer phrase normalis e 08 phrase normalis e lt remplacer phrase normalis e 08 phrase normalis e lt traduire phrase normal is e 282 222 ifi00000 eeee azattuuuucoooo phrase normalis e lt enlever les doubles espaces phrase normalis e phrase normalis e lt normaliser les nombres phrase normalis e phrase normalis e lt normaliser les unit s phrase normalis e phrase normalis e lt normaliser certains caract res phrase normalis e phrase normalis e lt limimer_ponctuationi phrase normalis e phrase normalis e lt liminer expressions vides phrase normalis e phrase normalis e lt limmer mot vides phrase normalis e phrase normalis e lt limmer ponctuationl phrase normalis e D coupage en mots Liste mots d couper entre les espaces phrase normalis e d suffixation avec l une des trois m thodes ou lemmatisation d pend du param tre en entr e Pour chaque mot de Liste mots faire mot normalis mode normalisation mot mot FinPour enlever les doublons Liste mots normalis s liminer doublons Liste mots normalis s enlever les mots normalis s non pertinents ouvr
37. aura sa disposition une mul titude de ressources sur Internet Il fait alors face un probl me interroger des moteurs de recherches qui utilisent un langage qui ne lui est pas adapt exemple le patient va rechercher des informations sur le mal de t te alors que son probl me est identifi comme tant une lt c phal e gt Les ressources ne sont pas toutes adapt es son niveau de compr hension vocabulaire trop technique connaissances faibles du domaine et crites dans une langue diff rente de la sienne En mati re de recherche d information adapt e aux patients il est n cessaire d in 24 http www nhs uk Pages homepage aspx 25 Accessible ici http www guideline gov 26 Accessible ici http www intute ac uk 27 Accessible ici http www cma ca index cfm ci_id 54316 1a_id 1 htm 28 Il existe un contrat de coop ration commerciale entre Vidal et l quipe CISMeF pour le projet VidalRecos 29 Le langage courant et souvent tr s loign dans la forme des termes tr s pointus du monde m dical Tse03 180 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 5 Recherche translangue terroger des sites dont le contenu est adapt niveau de compr hension des patients De plus il faut pouvoir traduire une requ te en langage patient crite en fran ais en anglais Neveol06 Le passage d une langue une autre en mati re de reche
38. cialisation des concepts qui sont reli s par des rela tions d hyponymie 48 Par exemple le concept A 81000 lt radiation SAT rayonnement ionisant gt est plus g n ral que le concept A 81020 lt radiation lectromagn tique gt et que le concept A 81050 lt rayon X gt le concept T 61083 lt salive s cr tion de la glande salivaire gt d signe une partie de T 61000 lt glande salivaire SAI gt Ae T Topographie B52 M Morphologie em A artefacts activit s physiques 1686 L tres vivants 26325 C produits chimiques 15940 I M tiers 2303 S contexte social 1110 D Diagnostics 42 492 P Actes T8980 Qualific atifs pe Total 164 180 FIGURE 2 16 Les axes de la SNOMED 3 5 Dans chaque axe les concepts sont repr sent s par une s rie de termes au sein de laquelle on peut distinguer une formulation pr f r e et des synonymes Chaque concept de la SNOMED 3 5 re oit un code alphanum rique unique par exemple T 01414 Ici les codes refl tent la hi rarchie des termes auxquels ils sont associ s par exemple A 81000 est plus g n ral contient moins de chiffres que A 81020 Le terme pr f rentiel poss de la classe 01 les autres termes la classe 02 03 ou 05 voir la figure 2 17 pour un exemple Il est possible de combiner des termes provenant d axes diff rents les relations transversales ce qui permet de composer un concept complexe en combinant des concepts
39. de deux fils exprimant la fracture de la jambe et la fracture de la cheville aucun traitement n est n cessaire Sinon il est n cessaire de cr er deux libell s d indexation fracture de la cheville gt et lt fracture de la jambe gt Ceci a t r alis automatiquement m me m thode que pour les alternatives Les flexions certaines variations de mots peuvent tre explicit es exemple pour le terme lt plaie ouverte d un des orteil s sans l sion de l ongle gt Les marques de flexions s des etc sont limin es automatiquement afin de cr er le libell d indexation correspondant Des alternatives du type lt ou gt ou des synonymes entre parenth ses ces alterna tives peuvent constituer plusieurs libell s d indexation possibles pour un m me terme exemple pour le terme lt abscence ou perte de d sir sexuel gt deux libell s d indexation alternatifs sont cr s lt abscence de d sir sexuel gt et perte de d sir sexuel gt autre exemple pour le terme lt pian plantaire humide pian crabe gt nous avons deux libell s d indexation alternatifs pian plantaire humide gt et lt pian crabe gt Les alternatives en lt ou gt ont t trait es automatiquement puis valid es la main Le programme permet d extraire les deux expressions entourant le lt ou gt Le premier libell d indexation conserve la premi re expression le lt ou gt et la deuxi me expression sont limin s
40. exemples une poup e nageait au fil de l eau 70 Chapitre 2 Etat de l art Section 2 5 Aide l indexation attribue un score chaque terme candidat correspondant la qualit de la correspondance entre les termes candidats et les groupes nominaux dont ils ont t extraits puis range les termes par score combine les termes candidats li s un m me groupe nominal et calcul nou veau le score puis s lectionne les candidats ayant le meilleur score Exemple lt Bupivacaine gt et Local anaethetic gt ou Local anaethetic Nos gt La m thode des trigrammes applique la m thode des N grammes avec N 3 voir section pr c dente Apr s l application de cette m thode les candidats termes is sus du titre de la ressource ou ayant obtenus le meilleur score sont s l ctionn s La fr quence des termes dans le documents est aussi calcul e Le module lt Restrict to MeSH trouve tous les mots cl s MeSH les plus proches des termes UMLS candidats Bodenreider00 Les termes MeSH sont d abord recherch s parmis les synonymes des termes UMLS Si aucun synonyme pour un terme UMLS n est trouv alors la recherche se fait sur les combinaisons de termes MeSH Puis le r seau hi rarchique du terme UMLS est exploit afin de trouver un parent li un terme MeSH Enfin si aucun terme MeSH n est trouv les relations non hi rarchiques sont exploit es L algorithme PRC Kim01 extrait une liste ordonn e de
41. lt transplant libre de tendon de la main gt MJMA006 1 2 Enfin des codes influant sur la tarification peuvent tre juxtapos s l application des codes modificateurs indique les circonstances particuli res de r alisation de l acte et peut entra ner une majoration du co t du s jour un code association qui permet de signaler des associations d actes non pr vues 53 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation un code remboursement exceptionnel un code suppl ment pour un acte en cabinet code C Chaque code est suivi de son tarif en euros et de pr cisions tarifaires de ca ract ristiques g n rales et de pr cisions sur le codage et de plus de 20 autres crit res divers voir site de l assurance maladie Plusieurs actes peuvent tre associ s 4 au maximum Toutefois il existe des asso ciations d actes interdites elles sont identifi es et list es 2 4 3 4 La Nomenclature syst matique de M decine humaine et v t rinaire SNOMED Dix ans ont t n cessaires au comit sur la nomenclature et la classification des maladies cr par le College of American Pathologists CAP en 1955 pour aboutir la publication de la SNOP Systematized Nomenclature of Pathology une nomen clature fonctionnelle pour les pathologies En 1973 le Dr C t fait voluer la SNOP vers la SNOMED Systematized Nomenclature of Medicin
42. par probl me et ou par ordre chronologique et ou par sp cialit voir section 6 3 19 Cet outil a t acquis par la soci t IS S 178 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 4 Recherche contextuelle dans VidalRecos 7 4 Recherche contextuelle dans VidalRecos La n cessit de maitriser les donn es actuelles de la science et de respecter les r f rentiels en vigueur constitue l une des bases de l exercice professionnel pour un m decin Le site VidalRecos est un outil d aide la d cision th rapeutique Il constitue aussi un outil p dagogique pour les tudiants en m decine ou en pharma cie et pour les m decins dans le cadre de la formation m dicale continue Il diffuse des synth ses de recommandations th rapeutiques appel es les lt recos gt r sultant de la synth se des recommandations th rapeutiques manant de la HAS de l AFSSAPS et des soci t s savantes pour les situations m dicales les plus fr quentes en m decine de ville Des arbres d cisionnels r sument chacune des d marches th rapeutiques du diagnostic au traitement Des grades de recommandation donnent le niveau de preuve scientifique chaque fois que cela est possible En outre pour chaque pathologie tous les m dicaments indiqu s dans le traitement de celle ci sont list s L acces aux recommandations se fait gr ce un moteur de recherche par domaine th ra
43. phrase Type_terme Codes_terme Langue Ter minologie Taille Libell Terme Type Propri t s Codable D coupage_lemmes_ou_st mes ANTECEDENTS 3 asthme 2 1 G 0003 FRE SNMI 1 ant c dents de G NULL O ant c dent ANTECEDENTS 3 asthme 2 1 D001249 FRE MSH 1 asthme D C08 127 108 C08 381 495 108 O asthme ANTECEDENTS 3 asthme 2 1 J45 9 FRE CIM10 1 asthme sans pr cision S NULL O asthme 3 14 Conclusion Ce chapitre a permis d exposer le fonctionnement de l outil F MTI Plusieurs m thodes ont t impl ment es afin de r aliser une indexation multi document multi terminologique et multi t che Dans le chapitre suivant nous valuons l indexation produite par l outil F MTI pour les diff rentes t ches d indexation d crites au d part 30 Par multi t ches nous entendons la capacit de F MTI indexer un m me document avec une m me terminologie mais pour des t ches diff rentes Par exemple F MTT pourrait r aliser une indexation CIM10 d un compte rendu vis e m dico conomique ou bien vis e descriptive Ceci est possible gr ce aux r gles d indexation du post traitement qui seront diff rentes selon la t che vis e 113 Chapitre 4 Evaluation de l indexeur multi terminologique 4 1 Introduction Nous avons proc d a diff rentes valuations la premiere consiste a valuer diff rentes m thodes de d suffixation afin de d terminer la meilleure m thode a int grer d
44. s par un code num rique ou alphanum rique un code par concept Ces codes peuvent refl ter la hi rarchie des concepts Il existe plusieurs d clinaisons de terminologies Vocabulaire contr l Un vocabulaire contr l est la forme la plus l mentaire d une terminologie La signification des termes n est pas forc ment d finie et il n y a pas n cessairement d organisation logique des termes entre eux Classification Une classification est un vocabulaire contr l qui a comme par ticularit d organiser et hi rarchiser les termes en classes vocabulaire contr l et organis Hoquet05 Les connaissances sont r parties dans des classes subdivis es en sous classes plus pr cises La CISP Classification Internationale des Soins Pri maires et l ATC classification Anatomique Th rapeutique et Chimique sont deux exemples de classification Dans notre sujet nous nous int ressons deux classifi cations la CIM10 voir section 2 4 3 2 pour le d tail de cette classification et la CCAM voir section 2 4 3 3 pour le d tail de cette classification Un exemple de classification est la taxonomie du grec taxis rangement et nomos loi La taxonomie s int resse au classement biologique en classant les organismes vivants et en les regroupant en entit s appel es taxons familles genres esp ces etc Fisher83 Elle se pr sente sous la forme d un arbre depuis une racine in cluant tous les tres vivants exis
45. tion de la terminologie Medical Entities Dictionary MED traduisait les donn es du patient concern es par la demande de l utilisateur en une forme reconnue par les res sources L infoButton est un outil de recherche d information qui pr voit l avance les questions qu un utilisateur peut se poser ainsi que les ressources d information sur Internet dont il peut avoir besoin dans un contexte particulier En pratique l in foButton doit mener l utilisateur le plus pr s possible de la r ponse sa question gr ce un minimum d interaction entre l utilisateur et l ordinateur Del Fiol06 Nous avons donc cr deux boutons d information contextuels et personnalis s destin s anticiper les besoins d information des utilisateurs dans les fiches des co dages du s jour du patient l h pital contenant les diagnostics et actes m dicaux et dans la fiche de synth se La fiche de synth se regroupe toutes les informations issues de tous les s jours effectu s par le patient l h pital Ces fiches ont t jug es par un m decin expert P Massari ainsi que dans la litt rature GIP DMP07 comme des endroits strat giques de consultation et de possibles besoins d information Le premier bouton cr un acc s direct vers le site CISMeF voir section 1 3 1 2 Le m decin joue le r le d interm diaire informateur entre le monde m dical et le patient 3 M decin int gr l quipe CISMeF 17
46. tude permet la d livrance de connaissances de mani re contextuelle entre deux banques d informations CISMeF patient et MedlinePlus Cet acc s a t repris dans un autre syst me d information le dossier lectronique du patient voir section 182 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 6 Discussion Conclusion CiSMeF Doc CISMeF Inches des Ses en Out de recherche en m decine CHU H A rop s de a frances Booleans Pos a Pas z Recherche O fabogions pasat me poente D Rechercner sd 6 ressource s COUN HOTS an 0 5 secondes piar tatapis pas E t Cih et patient ype d lessouE ce i rpr taben de ta raui PREET ote t Droit l air pur Le f1 F Erene b recherche Wot reserve F poddon tante nen Ste feni Rove peanon deedoonssera zayciy vb mort makes Medline PI Trusted Health Info ou toeo teoummen gt mobs bitpo wan lt LATE parperwner a _ eaten snpdi Homo TLEER Drugi amp Supplements Encyclopedia Oectionary News Directories Othar Resoun nn ed a Fum e dutabacaur Otherheskhtopics A LOLEGUIIELYNLOLOQRSIU Y XYZ List r All Tope e Minne recheeche iet Recommandations pou ti DOANG PINIO Chiba Documents svapegiue Madli Pas Patera Gamer Site be Sescripdom des efets dut rusces tecriicts Secondhand Smoke infomedia Latest News i
47. un diagnostic code CIM10 ou un acte code CCAM 173 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 2 Acc s contextuel la connaissance a partir du dossier patient Ni patient ni m decin ni tudiant Disparition du bouton Aucun diagnostic n est cod ou i n a pas la forme d un codage _ malien Disparition du bouton Pas de transcodage MeSH pour ce terme CINILO Disparition du bouton Pas de document index avec ce terme MeSH et pour ce type d utilisateur Disparition du bouton Apparition du bouton FIGURE 7 2 Traitements r alis s pour d terminer l apparition des deux boutons d crit dans le dossier patient pour obtenir des informations sur celui ci Pour le premier bouton la page de CISMeF correspondant la requ te appara t alors Cette requ te est le fruit de l association du statut et du terme MeSH partir de la table de transcodage sous la forme d une URL adapt e voir figure 7 3 eae m FIGURE 7 3 Traitements r alis s apr s avoir cliqu sur le bouton CISMeF ou l un des sites de la page Web Pour le deuxi me bouton la page Web des autres sites appara t seulement pour les sites o des ressources adapt es sont disponibles L utilisateur n a plus qu choi sir la cat gorie qui l int resse des documents pour le patient des recommandations etc la langue qui lui convient
48. un objectif difficilement atteignable Wehrli88 Je pense pour ma part qu avec les efforts de chaque acteur nous pouvons tendre atteindre cet objectif terminologues pour l am lioration des terminologies et le d veloppement de r gles d indexation propre la terminologie indexeurs pour la formation l indexation l apprentissage des terminologies utilis es et le d veloppement de r gles d indexation pour les t ches vis es auteurs de documents destin s tre index s pour la formation la r daction informaticiens pour le d veloppement d outils d indexation automatique plus performants Pour une bonne valuation de ce genre d outil il est n cessaire de disposer d une indexation manuelle de r f rence de qualit ce qui n est pour l instant pas le cas En effet disposer de corpus assez importants de documents index s avec la m me version d une terminologie et selon les m me r gles reste tr s difficile Ajouter cela des documents de qualit associ s une indexation manuelle issue d un consensus de plusieurs individus experts est mission impossible Comme le dit Lancaster le 1 Voir http www computationalmedicine org challenge 163 Chapitre 6 Discussion Section 6 4 Diff rentes m thodes probl me concernant l valuation d une indexation est qu il n existe pas de r f rence universelle Lancaster91 Une valuation manuelle de l indexation par
49. utilisateur de recher cher des documents par leur titre leur auteur ou leur date Cette op ration est importante car la masse d information m dicale est telle que si le document n est pas r pertori il devient introuvable et donc inutilisable Si l on ne connait ni l au teur ni le titre de l ouvrage la m thode de recherche d information pr c dente n est d aucune utilit puisqu elle consiste d abord s lectionner le theme qui correspond le mieux l information recherch e puis consulter tous les index et les r sum s voir 20 Chapitre 2 tat de l art Section 2 2 Fondements de la recherche d information et des bases de connaissances tous les contenus des ouvrages si la question est tr s pr cise Cette m thode est bien entendue rendue impossible cause du volume de donn es consulter La solution est venue avec l informatisation et les premi res terminologies d di es L informatisation a permis au XXe si cle de palier les probl mes de la re cherche d information papier lenteur non exhaustivit lenteur de diffusion probl mes d archivages co ts Les catalogues sont alors devenus centralis s et produits en coop ration L information m dicale contenue dans les ouvrages est alors structur e dans des bases de donn es mises en m moire dans les or dinateurs L informatisation a aussi permis aux usagers d interroger cette base de donn es gr ce un ordinateur
50. 149 diab te de type 2 C18 452 394 750 774 tat pr diab tique C18 452 394 937 glycosurie C18 654 troubles nutrition N Sant Z Emplacements g ographiques C23 troubles li s environnement FIGURE 2 5 Les 15 arborescences MeSH et un extrait de l arborescence C Un descripteur peut appartenir plusieurs arborescences il peut donc avoir plusieurs codes arborescences Les concepts chimiques l mentaires sont as soci s leur num ro CAS une d finition qui accompagne chaque descripteur Les qualificatifs permettent lorsqu ils sont combin s un descripteur de sp cifier d avantage le sens du descripteur Darmoni07 exemple cancer des os traitement m dicamenteux gt permet de restreindre le cancer des os descripteur au seul aspect du traitement m dicamenteux qualificatif A chaque terme correspond une liste de qualificatifs auxquels il peut tre associ De plus il existe deux types de relations la relation voir aussi gt permet de naviguer d un descripteur l autre et de relier des termes proches la relation lt ne pas confondre gt permet de pr ciser le sens et de lever les am biguit s D autres types de termes sont utilis s pour l indexation le catalogage et la recherche en ligne par la NLM les types de publication permettent de d finir le type des ressources et les termes g ographiques 2 4 1 2 La terminologie CISMeF une terminologie fond e sur le MeSH L q
51. 2 tat de l art Section 2 5 Aide l indexation coder un document Cette approche consiste en deux phases principales voir figure 2 20 Phase d apprentissage Vectorisation Indexation manuelle des documents des m decins Termes de la terminologie Termes signifiants Document Concept 1 index Nouveau Concept 2 document Vectorisation SN Ym t y du document passes ses Indexation cr ation oo i Etude i du lien entre le document des correspondances 1 et les termes FIGURE 2 20 Repr sentation du probleme de la classification automatique une phase d apprentissage qui permet d identifier les relations entre les expres sions du document et les codes associ s par le codeur humain Cette phase peut tre coupl e ou pr c d e d une phase de traitement du langage naturel La majorit des outils de classification se fonde sur une repr sentation vec torielle des documents Ceci permet de r duire le document textuel un en semble de descripteurs significatifs expressions normalis es appartenant au texte contenus dans un vecteur Le fait que les expressions soient normalis es permet de restreindre le nombre d expressions qui vont tre trait es ainsi que de prendre en compte un grand nombre de variations possibles pour cette ex pression Les descripteurs sont restreints aux descripteurs les plus discrimants pour le corpus les plus fr quents et l
52. 5 les sites Web en MeSH et les RCP en TUV D autres param tres peuvent 78 Chapitre 3 Conception de l extracteur multi terminologique Section 3 4 Mod lisation des terminologies tre consid r s en entr e nous verrons lesquels par la suite La figure 3 1 montre le fonctionnement g n ral de l outil L indexation des docu ments se fait en plusieurs phases Premi rement les documents sont d coup s en rubriques paragraphes et phrases Ce d coupage peut tre physique ou se limiter a une identification des rubriques paragraphes et phrases ainsi que leurs emplacements l int rieur du document Trois m thodes d indexation peuvent alors tre appliqu es l algorithme du sac de mots le dictionnaire de termes et le dictionnaire de constituants L outil peut tre param tr afin d utiliser une ou plusieurs de ces m thodes Ces m thodes seront d crites aux sections suivantes Les diff rents termes issus de ces indexations r alis es par les diff rentes m thodes sont agr g s et filtr s Enfin des post traitements sont appliqu es afin de proposer une liste de termes d indexation pour le ou les document s l utilisateur Ces diff rentes tapes sont d crites aux sections suivantes 3 4 Mod lisation des terminologies Afin de permettre F MTI d interroger de fa on rapide les cinq terminologies d int r t ainsi que les l ments n cessaires aux diff rentes m thod
53. Caisse Nationale d Assurance Maladie des Travailleurs Salari s et l ATIH en troite collaboration avec les soci t s savantes la CCAM 4 a t cr e afin d obtenir une liste unique d actes cod s commune aux secteurs pu blic et priv pour les professionnels de la sant afin de garantir la coh rence des syst mes d information et de satisfaire les professionnels par l utilisation d un seul outil Elle est destin e d crire plus pr cis ment chaque acte servir de base la tarification en secteur lib ral cabinets et cliniques et l allocation de ressources aux tablissements publics dans le cadre de la tarification l activit T2A Elle poss de un lien s mantique avec la CIM10 cr par Jacques Chevallier Chevallier03 Nous nous sommes int ress s dans cette th se la version 6 la version disponible l poque de nos premi res impl mentations La version la plus r cente est la version 13 9 999 codes applicable au 28 12 2007 Cette terminologie est peu stable des mises jour sont produites tous les 2 voir 3 mois La CCAM est une classification purement fran aise m me si sa structure int resse de nombreux autres pays tels que le Japon L quivalent aux tats Unis de cette clas sification est la Current Procedural Terminology CPT L quivalent au Canada est 42 La NGAP est la nomenclature de m decine ambulatoire 43 Le CDAM publi en 1985 a t labor par des
54. Des solutions peuvent venir aider l indexeur dans sa t che comme des outils facilitant la recherche de termes dans les terminologies d indexation ou proposant une indexation automatique de documents que l indexeur n a plus qu v rifier et valider Dans notre projet de th se nous nous sommes int ress s ce deuxi me type d outil Nous nous sommes galement int ress s aux moyens de faciliter l acc s aux connaissances contenues dans les bases documentaires 0 2 En pratique En pratique trois applications ont attir notre attention Dans les domaines de la sant et de la bio m decine de nombreux travaux ont t entrepris afin de guider les utilisateurs dans leur recherche d information Ainsi la ix Chapitre 0 Introduction g n rale Section 0 2 En pratique base de donn es bibliographiques MEDLINE recense 10 6 millions d articles scienti fiques en langue anglaise index s l aide de la terminologie MeSH Medical Subject Headings En Europe plusieurs projets par exemple HON Intute et no tament en France le projet CISMeF ont vu le jour Ce site r pertorie et indexe les documents lectroniques d information institutionnelle de sant en langue fran aise afin d aider les professionnels de sant les tudiants et les patients a rechercher une information de qualit en sant sur Internet L essentiel du travail de l quipe CISMeF consiste en la maintenance et la mise jour
55. Les variantes recherch es tant en majorit des donn es th rapeutiques nous avons inclus dans le corpus l ensemble des RCP disponibles chez Vidal 14 104 Nous avons ajout a cela des documents m dicaux 100 comptes rendus d hospita lisation et l ensemble du corpus CISMeF plus de 40 000 ressources Ce corpus a t cr grace au logiciel NooJ ce logiciel peut prendre en compte plusieurs formats de fichiers dont le texte le format XML et PDF qui constituent nos documents 3 8 2 6 R sultats pour le TUV L application des transducteurs a permis de g n rer 3 633 092 variantes Parmis ces variantes 3 243 325 respectent l ordre des lemmes du terme de d part et 336 918 sont constitu s des lemmes dans le d sordre Un filtre a permis d liminer les variantes avec des mots en double soit 52 849 variantes limin es Enfin les variantes d j existantes dans les terminologies du Vidal ou en double sont limin es Au final 7 800 variantes ont t recueillies gr ce cette m thode dont 1 007 concernaient le TUV Une validation manuelle des 1 007 variantes par un exper 550 variantes soit 55 t a permis de valider Voici quelques exemples de variantes valid es grossesses normales grossesse normale 5250 CC TUV diab te non insulino d pendant diab te non insulino d pendant 2600 CC TUV pneumocoque et les infections infection pneumocoques 5419 CC indictPHR TUV ant c dents de fracture f
56. MeSH dans chaque langage voir figure 7 8 Gr ce ces liens existants nous avons pu induire les liens qui existaient entre les termes patients en anglais et en fran ais Par exemple 30 Nous lions des termes professionnels MeSH leurs quivalents en langage courant 31 Accessible ici http medlineplus gov 32 Appel s aussi Consumer Health Information CHI terms 181 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 5 Recherche translangue li au terme patient anglais lt second hand smoking gt nous trouvons le terme MeSH anglais lt tobacco pollution gt et son quivalent fran ais lt pollution fum e tabac gt Il existe un terme patient li au terme MeSH fran ais tabagisme passif gt Nous pouvons donc induire la relation d quivalence entre les termes patient lt tabagisme passif gt et second hand smoking gt 280 liens de ce type ont t cr s soit 129 liens contextuels valid s Tabagisme passif Second hand smoking Inhalaci n pasiva 77 we de humo i CHI f CHI 5 CHS T VOD F M CD eT TT Contaminaci n por Pollution Fum e Tabac Tobacco Smoke Pollution Humo de Tabaco FIGURE 7 8 Cr ation de liens d quivalence entre les termes patients en anglais et en fran ais Ainsi la requ te dans CISMeF tabagisme passif gt concernant des ressources patient retourne des documents index s avec le terme MeSH tabagism
57. Metath saurus de PUMLS voir Annexes A Les attributs Tous les codes r pertori s dans l UMLS pour les termes CIM10 MeSH ou SNO MED sont r pertori s ici l identifiant unique du concept UMLS CUI l identi fiant unique du terme LUI l identifiant unique de la cha ne de caract res SUI Videntifiant unique de l atome AUI ce qui est g n ralement le code de dernier niveau dans l UMLS et enfin l identifiant unique du terme dans la terminolo gie le code termino Une s rie d attribut permettent aussi de d finir le type du terme au sein du m tath saurus le type du terme TS de la cha ne de caract res STT et IS PREF qui indique si le AUI est le pr f r ou non Classe des Termes But Cette classe r unie tous les termes de chaque terminologie Cette table a t inspir e de la table MRCONSO contenant les sources et les noms des concepts dans le Metath saurus de l UMLS Elle regroupe toutes les classes d crivant les termes pour chaque terminologie Termes de la CCAM Des cripteur Qualificatif Type de ressource M taterme du MeSH Termes de la SNOMED et enfin Termes syst matiques Descripteurs et Inclu sions de la CIM10 Les attributs L attribut code termino renseigne le code du terme dans la terminologie source Modifications apport es nous avons ajout un code pour les Types de ressources et les M tatermes du MeSH L attribut langue indique la langue dans laquelle le libell est exprim
58. Rogers W From Indexing the Biomedical Literature to Coding Clinical Text Experience with MTI and Machine Learning Approaches BIONLP Biological translational and clinical language pro cessings 2007 105 12 Averbuch M Karson T Ben Ami B Maimond O Rokachd L Context Sensitive Medical Information Retrieval Stud Health Technol Inform 2004 282 286 Avillach P Joubert M Fieschi D Improving the quality of the coding of primary diagnosis in standardized discharge sum maries Health Care Management Science 2008 206 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE A villachO8b Bachimont00 Baneyx06 Baud92 Baud97 Bayes63 Bayesa Vates99 Bell90 Berard Dugourd89 Bergman01 Berrut90 BerthelotO5 Bertrand93 Bodenreider00 Avillach P Joubert M Fieschi M Improving the quality of the coding of primary diagnosis in standardized discharge sum maries Health Care Management Science 2008 Bachimont B Engagement s mantique et engagement ontolo gique conception et r alisation d ontologies en ing nierie des connaissances Ing nierie des connaissances chapitre 19 Paris L Harmattan 2000 Baneyx A Construire une ontologie de la pneumologie as pects th oriques modeles et exp rimentations Ph D thesis Universit Pierre et Marie Curie PARIS 6 2006 Baud R Rassinoux A Scherrer J langugage processing and semantical repr
59. Rouen valoris aupr s de l universit et vendu une soci t Un deuxi me acc s de type lt vue gt a t con u au sein du dossier patient afin de filtrer les diagnostics et actes pour un patient en fonction de la sp cialit m dicale int ressant l utilisateur L encore ce travail a t mis en place au CHU de Rouen et vendu une soci t Un troisi me acc s de type lt approfondissement de la recherche gt qui permet un utilisateur partir d un moteur de recherche d approfondir sa recherche sur d autres sites de qualit a t r alis Ce syst me a t mis en place sur le site VidalReco pour la recherche de recommandations de bonnes pratiques Enfin un quatri me acc s de type CLIR a t labor pour aider les utilisa teurs dans leurs recherche d information dans une langue qu ils ne maitrisent pas compl tement Ce syst me a t mis en place sur le site CISMeF Au cours de cette th se nous avons pu r pondre aux besoins des diff rentes quipes Un important travail dont nous avons pu identifier les contours reste encore r aliser afin d obtenir une indexation automatique de qualit La suite est d j assur e avec des th ses en cours et des projets venir Il est vraisemblable que je continue travailler la r alisation de ces projets Au travers de tous les travaux r alis s au cours de cette th se nous avons pu parfaire nos connaissances dans le domaine du traitement auto
60. Section 1 3 Contexte scientifique dia leader international de l information professionnelle aux entreprises dans les secteurs entre autres de la sant de la technologie et des m dia Elle diffuse des informations sur le m dicament aux professionnels de sant aux industries pharma ceutiques et au grand public Enfin le LERTIM le Laboratoire d Enseignement et de Recherche sur le Trai tement de l Information M dicale a t labellis Equipe d Accueil EA3283 La re cherche autour de l informatique m dicale se d veloppe dans ce laboratoire depuis 1990 Les travaux de th se ont t effectu s au sein des quipes suivantes l quipe CISMeF dirig e par le professeur St fan Darmoni et le conservateur de la biblioth que m dicale Beno t Thirion au Centre Hospitalo Universitaire de Rouen L quipe CISMeF appartient laxe Traitement de l Information en Biologie et Sant gt TIBS du laboratoire LITIS L quipe est constitu e d un professeur d un conservateur de trois documentalistes sp cialistes de lin dexation m dicale les indexeurs de deux ing nieurs de recherche et de trois doctorants voir la figure 6 1 pour avoir un aper u du r le de chacun l quipe scientifique du Vidal dirig e par Jean Fran ois Forget Les travaux ont t co encadr s par Elisabeth Serrot r sponsable de l quipe charg e de la cr ation et de la maintenance des donn es th rapeutiques ainsi que de
61. T Text categorization with Support Vector Ma chines Learning with many relevant features Procee dings of the Tenth European Conference on Machine Learning ECML 98 Springer Verlag 1998 137 142 Jollis J Ancukiewicz M De Long E Pryor D Muhlbaier L Mark D Discordance of databases designed for claims payment versus clinical information systems Implications for outcomes research An Intern Med 1993 119 855 857 Joubert M S A Fieschi D Fieschi M ARIANE un mo teur de recherche de deuxi me g n ration dans le domaine de la sant Informatique et Sant 2002 Joubert M Dufour J Aymard S Falco L Staccini P Fies chi M Le Projet CoMeDIAS Acc s des Bases de Donn es H t rog nes au Moyen de Services Internet Informatique et Sant 2003 Joubert M Gaudinat A Boyer C Fieschi M members H F C WRAPIN a tool for patient empowerment within EHR Stud Health Technol Inform 2007 129 147 51 Joubert M Le Beux P Darmoni S Fieschi M Evaluation de l indexation des documents de l Universit M dicale Virtuelle Francophone JPM 2007 Keselman A Slaughter L Smith C Hyeoneui K Divita G Browne A Towards Consumer Friendly PHRs Patient s Ex perience with Reviewing their Health Records AMIA Annu Symp Proc 2007 399 403 Kim W and Aronson A Wilbur W Automatic mesh term assignment and quality assessment AMIA Annu Symp Proc 2001 319 323 214 Chapi
62. Vidal Cette th se ouvre pour le Vidal des perspectives en mati re d exploitation d autres terminologies m dicales pour des alertes toujours plus performantes La collaboration entre donn es du dossier m dical lectronique et logiciels d aide la prescription va pouvoir tre tendue 166 Chapitre 6 Discussion Section 6 5 Perspectives 6 5 3 3 Vers un dossier patient plus structur et une aide au codage pour les m decins LERTIM Cette th se a permis de faire un nouveau pas vers l laboration de syst mes d information hospitaliers performants adapt s et volutifs et notament pour la cr ation d un Dossier M dical Personnel DMP Les th ses de S Sakji T Merabti et A Diouf en cotutelle avec le laboratoire LERTIM permettront de poursuivre cet axe de recherche Une meilleure structuration des dossiers patients lectroniques avec une indexa tion descriptive ouvre des perspectives dans des voies de recherche connues comme la cr ation automatique de synth ses m dicales de r sum s automatiques l aide au codage m dico conomique et d autres moins connues comme la r daction assist e de documents 6 5 4 Vers d autres projets communs Les collaborations entre la soci t Vidal et les quipes LERTIM et CISMeF conti nuent trois projets ont d j d but s InterStis PSIP et Aladin Le projet Interstis Interop rabilit S mantique des Terminologies dans les Syst mes d Informati
63. acces au catalogue se fait via les urls suivantes http www chu rouen fr cismef fr ou http www cismef org 10 donn es de mai 2008 Chapitre 1 Contexte Section 1 3 Contexte scientifique utilis es que de rendement et de facilit d utilisation pour l utilisateur L ajout d une nouvelle ressource au catalogue s effectue en quatre tapes 1 Recensement des ressources potentielles par une veille strat gique quotidienne via des annuaires multidisciplinaires francophones des sites majeures et bien d autres 2 S lection des ressources selon des crit res de qualit fond s sur le NetSco ring crit res de qualit de l information de sant sur Internet Darmoni98 Darmoni03a Cette s lection est faite de mani re rigoureuse par des profes sionnels de l information appuy s par des r seaux d experts 3 Chaque ressource est d crite dans une notice voir un exemple de notice courte figure 1 2 afin d tre plus facilement retrouv e par le moteur de recherche CISMeF Un ensemble de m tadonn es est associ la ressource par les in Titre Corticost ro des inhal s pour la bronchoconstriction l effort 2008 Site diteur Minerva revue d evidence based medicine Quelle est l ampleur de l efficacit de l administration de corticost roides inhal s versus R sum placebo chez des adultes et des enfants asthmatiques en pr vention de la bronchoconstriction a l effort sour
64. ainsi que de naviguer l int rieur de celle ci L indexation purement manuelle est r serv e aux ressources urgentes par exemple de nouvelles recommandations pour la bonne pratique qui doivent tre mise en ligne rapidement pour tre rapidement accessibles par les m decins 2 4 1 4 Pr mices d indexation automatique Pour toute indexation automatique ou manuelle l indexation des m tatermes ou cat gorisation en sp cialit m dicale se fait de mani re automatique N v ol05al 24 Le serveur de terminologie est accessible via l url http www churouen fr terminologiecismef 39 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation Chaque ressource est index e par une liste de mots cl s MeSH associ s ou non a des qualificatifs et par une liste de types de ressources Par l interm diaire des liens s mantiques de la terminologie CISMeF section 2 4 2 l algorithme utilis associe chaque l ment de ces listes un ou plusieurs m tatermes Ainsi si un terme mot cl qualificatif ou type de ressource est li plusieurs m tatermes chacun de ces m tatermes sera retenu pour la cat gorisation Un score dit majeur gt est calcul il correspond au nombre de types de ressource de descripteurs majeurs partir des quels le m taterme consid r a t retenu Les m tatermes ayant un score majeur non nul sont dits majeurs gt et
65. ajout es a celles de l UMLS La valeur NULL sera attribu e pour les autres terminologies et relations Classe des M mos But Cette classe renseigne toutes les notes et m mos rattach s aux termes des diff rentes terminologies Elle inclut les classes M mo et R f rences de la CIM10 Notes et D finitions du MeSH et Notes de la CCAM Cette classe est inspir e par la table MRDEF de UMLS 199 Chapitre A Annexes Section A 4 CIM10 M tatermes MeSH Les attributs L attribut code d signe le code du terme de la terminologie source SAB rat tach au m mo m mo L attribut type pr cise le type du m mo lt glossaire gt lt note gt r f rence lt infotarif gt Enfin l attribut langue pr cise la langue dans laquelle est ex prim le m mo Modifications apport es les autres attributs reli s aux termes CCAM exo_TM tarif entente etc consid r s comme purement informationnels ont t ajout s Ils seront s par s par un lt gt Classe des Alternatives lexicales termes But Cette classe r unie toutes les variations flexions et synonymes des termes inclus dans le dictionnaire g n ral Elle inclut la classe dictionnaire du MeSH Les attributs Les attributs code et libell d signent le code du terme ainsi que son libell Les attributs alternative lexicale et donn es lexico syntaxiques ren seignent les variations flexions et synonymes du terme ainsi que les donn es le
66. allaitement d un nourrisson Conduite et utilisation de machine comportement adopter en cas de conduite de v hicule ou d utilisation de machines Effets ind sirables effets non souhait s secondaires au traitement par le m dicament et aboutissant un r sultat n faste g ne allergie complications graves y compris le d c s surdosage sympt mes et conduite tenir en cas de surdosage Propri t s pharmacologiques Pharmacodynamique d crit l action du m dicament sur l organisme Pharmacocin tique d crit l action de l organisme sur le m dicament vitesse laquelle le m dicament est absorb distribu dans l organisme m tabolis transform puis limin de l organisme S curit pr clinique les donn es de s curit pr clinique la toxicit apr s des doses r p t es le pouvoir canc rig ne Donn es pharmaceutiques Incompatibilit s physico chimiques Conditions de conservation Modalit s de manipulation 2 4 2 2 Indexation du RCP par le Vidal La soci t Vidal exploite entre autres les donn es officielles contenues dans les RCP R sum des Caract ristiques du Produit mis par l AFSSAPS et le JO Jour nal Officiel Pour chaque sp cialit Vidal recueille int gre et structure les donn es conomiques administratives et th rapeutiques L un de ses objectifs est de per mettre in fine une s curisation ma
67. ann es 90 Il est destin indexer automatiquement les documents cliniques en SNOMED et CIM10 Les informations sur le fonctionnement de l outil le stockage des donn es et les technonologies d indexation en langage naturel ne sont pas diffus es par la soci t Il utilise des m thodes de correspondance et des synonymes pour comparer les s quences de mots du document jusqu 14 mots la fois avec la nomenclature SNOMED 3 5 qui a t restructur e afin de permettre des comparaisons rapides et efficaces Seules les correspondances exactes et les plus longues sont retenues Le syst me permet une indexation en SNOMED 3 5 et en CIM10 l indexation CIM10 tant obtenue par le transcodage SNOMED vers CIM10 qui avait t d velopp par la SFINM 72 2 5 4 Notre contribution L indexation des ressources Web des RCP et des dossiers m dicaux est de mani re g n rale r alis e la main l h pital au Vidal ou sur Internet Nous proposons d utiliser des m thodes d indexation automatique afin d aider les indexeurs dans ces t ches Nous proposons de cr er un outil multi t che multi terminologie et multi document Au vu de l tat de l art peu d outils permettent d indexer des documents l aide de plusieurs terminologies MAIF MTI et Snocode De plus il n existe aucun outil d indexation automatique pour la CCAM et le TUV Il n existe pas non plus d outil d indexation automatique pour la CIM10
68. apprendre sur des associations fausses qualit du codage faible et les r gles de codage valides une ann e peuvent ne plus l tre l ann e suivante Le syst me est donc oblig de r apprendre sans cesse au fur mesure des changements de r gles ou de nouvelles versions de terminologies Face l ajout de nouveaux termes dans une terminologie le syst me n a aucun l ment pour pouvoir les indexer Pour les terminologies qui voluent souvent cette approche n est donc pas du tout adapt e pour la CCAM ou le MeSH par exemple Les m thodes TAL ont comme avantage de prendre en compte le sens d un texte et de s parer le processus d extraction de termes des r gles d indexac tion Un syst me utilisant cette approche peut donc tout fait s adapter de nouvelles r gles d indexation l indexation de documents de types diff rents ou une mise jour quotidienne de la terminologie qu il indexe Le d faut de cette approche est que les ressources n cessaires sont incompl tes Il faudrait disposer d un lexique complet pour la langue fran aise g n rale et m dicale et de terminologies compl tes avec toutes les variantes possibles pour chaque terme De plus ces ressources sont difficiles obtenir les m thodes existantes ne sont capables d extraire que les formes simples compos es de 1 2 mots et doivent tre valid es manuellement Nous observons aujourd hui dans les outils d indexation aut
69. autre personne de la famille De la m me fa on que nous avons pris en compte la n gation cet autre contexte devra tre g r comme le fait Chapman Chapman07 la faible qualit des comptes rendus Un compte rendu mal r dig ou peu pr cis entra ne une baisse de la mesure du rappel Les comptes rendus contiennent des abr viations ou des fautes d orthographes qui ne permettent pas un syst me automatique de coder le code CIM10 associ alors que celui ci est cod par le 124 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es m decin Les comptes rendus pr sentent aussi un manque de pr cision dans les diagnostics voir m me l absence de certains diagnostics Certains diagnostics sont cod s par les m decins alors qu ils ne figurent pas dans les comptes rendus d hospitalisation Ceci peut tre le cas lorsque le m decin code le s jour du patient qu il a trait sans consulter le compte rendu qu il a auparavant r dig ou qu une autre personne de son quipe a r dig les comp tences en mati re d indexation des codeurs sont parfois en cause Les m decins sont le plus souvent peu ou pas form s l indexation des comptes rendus Les comptes rendus ne sont pas toujours cod s par la personne qui a pris en charge le patient Ils peuvent tre cod s par un autre m decin ou une secr taire ce qui peut entra ner des erreurs d indexation des erreurs
70. cessaire Les mots sont tout d abord rendus leurs formes minuscules On limine ainsi les variations d e la position dans la phrase mot d butant la phrase aux diff rents usages d criture 1 ou aux normes d criture pour les diff rentes terminologies Par contre ils sont un bon indicateur des noms propres mots invariants et sigles qui demanderaient un traitement particulier Il serait int ressant de prendre en compte ces formes particuli res dans une prochaine version de notre outil voir discussion et perspectives Les caract res sp ciaux doivent aussi tre normalis s comme par exemple les formes attach es lt oe gt L algorithme du sac de mots utilise dans CISMeF la d suffixation dans un but de recherche d information La d suffixation cherche rassembler les diff rentes variantes d un mot autour d un st me ou radical exemple lt passer gt lt passe gt lt passes gt lt passa gt lt passant gt ont le m me st me lt pass gt Nous pouvons ainsi trai ter la fois des cas relevant de la flexion exemple bact rie bact ries et de la d rivation exemple asthme asthmatique La technique repose g n ralement sur une liste de suffixes et un ensemble de r gles de d suffixation construites a priori qui permettent pour un mot de trouver son st me L algorithme de d suffixation uti lis dans CISMeF a t d velopp en interne par B Dahamna Nous testerons trois m thodes d
71. chapitre 6 une m thode permettant de filtrer des informations par sp cialit m dicale produire des donn es pour les tudes pid miologiques L pid miologie tudie les facteurs influan ant la sant et les maladies des po pulations humaines Ce type d tude n cessite de recueillir un maximum de donn es sur l tat de sant de chaque individu appartenant l chantillon de la population tudi e Les acteurs du monde de l pid miologie se plaignant de la pauvret des bases de donn es m dico economiques l encore une indexation compl te des informations aurait un grand impact communiquer des donn es entre professionnels de sant Dans le cadre du DMP Dossier Medical Personnel dont le but est de mettre en place un dossier unique national pour chaque patient un langage commun est indispensable Ce langage commun ou tout au moins pivot envisag pour l instant est la SNOMED 3 5 Le besoin d un tel outil se fait sentir aupr s des professionnels de sant La litt rature relate de nombreux travaux dans plusieurs pays Fujii07 Une phase de mise en oeuvre dans les h pitaux pourrait tre mise en place prochainement puisque l ASISP 7 a lanc un appel d offre pour la conception d un extracteur de termes SNOMED 5 3 3 Production de r sum s et r daction assist e de docu ments Un m decin rencontrant un nouveau patient pour la premi re fois aura besoin pour affiner son diagnostic et assurer le
72. codes Nombre de liens s mantiques ICDI0 CCAM CDAM ADICAP FIGURE 7 5 Liens s mantiques entre les cuper concepts et les diff rentes classifica tions lt cardiologie gt est li au code CIM10 150 0 Insuffisance cardiaque congestive gt au code CCAM DZQMO006 lt chographie doppler transthoracique du coeur et des gros vaisseaux gt et au code ADICAP BHCZ lt Biopsie endomyocardique gt F MTI a t appliqu afin de cr er automatiquement ces liens voir section 5 8 Pereira07 L utilisation de m tatermes pour r aliser des requ tes sur des consultations cli niques n cessite l indexation des diff rents services de consultation exemple l unit d chocardiographie a t li e s mantiquement deux m tatermes lt cardiologie gt et lt imagerie diagnostique gt L impl mentation de ces super concepts permet l utilisateur de filtrer les donn es selon une ou plusieurs sp cialit s m dicales cr ant ainsi une vue sur les donn es adapt e a son activit sur les donn es La vue affiche uniquement les s jours actes m dicaux et diagnostics li s aux m tatermes s l ctionn s Le cardiologue voudra ne consulter que les informations concernant son domaine la Cardiologie ou seulement les comptes rendus pour un acte particulier comme un acte de chirurgie pour son pa 18 On rappelle que les m tatermes correspondent des sp cialit s m dicales exemple lt cardio logie gt des t
73. comit s d experts m dicaux coordonn s par la Direction des H pitaux Il r pondait deux objectifs identifier les actes r alis s pendant le s jour du patient et mesurer la consommation en ressources humaines et mat rielles pour r aliser cet acte 44 La terminologie est disponible sur le site de l assurance maladie navigation recherche et t l chargement sur le site de l assurance maladie http wuw codage ext cnamts fr codif ccam index_prsentation php p_site AMELI ou telechargeable sur le site de PATIH http waw atih sante fr 80 id 0003100027FF 51 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation la CCI la Classification Canadienne des Interventions Le classement de la CCAM correspond une logique m dicale et se fait par grand appareil et non par sp cialit La CCAM est une hi rarchie h ritage simple or ganis e en 19 chapitres Les 17 premiers chapitres sont scind s en deux parties la premiere concerne les actes diagnostiques rang s par grande technique puis par or gane la seconde concerne les actes th rapeutiques class s par organe puis par action le chapitre 18 regroupe les gestes compl mentaires le chapitre 19 prend en compte les adaptations pour la CCAM transitoire Chap 1 SYST ME NERVEUX CENTRAL P RIPH RIQUE ET AUTONOME 11 ACTES DIAGNOSTIQUES SURLE SYST ME NERVEUX 111 Explorations lectrophysiologiques du syst
74. connaissances maines ainsi que les besoins usages et acc s qui en sont fait par les diff rents acteurs du monde m dical 2 2 1 Recherche d information lectronique 2 2 1 0 1 Historique Les informations m dicales peuvent rev tir plusieurs formes dessins tableaux ou textes Nous nous sommes int ress s aux formes textuelles de l information m dicale Cette information l origine non structur e est contenue dans des textes rapports notes articles livres etc Ces informations sont transcrites par l criture afin d as surer le recueil et la transmission des savoirs Avec ces recueils et le besoin de recherche de savoir est n e la recherche d infor mation Nous d finissons la recherche d information comme l ensemble des m thodes proc dures et techniques permettant un individu de s lectionner l information qui lui semble pertinente pour r pondre son besoin Un syst me de recherche d infor mation est d s lors l ensemble des mod les et des processus permettant la s lection d informations pertinentes dans une ou plusieurs collections en r ponse aux besoins d un utilisateur Les premiers outils de rep rage de l information datent de plusieurs mill naires Fayet Scribe97 C est dans l Antiquit 4 000 3 000 ans avt JC en Basse M sopotamie que l on voit apparaitre les premiers tableaux et listes ainsi que les premiers r sum s de documents la biblioth que m dicale
75. d aide l indexation multi terminologique proposition d ajout de nouveaux termes r f rents ou de nouvelles variantes Si le fragment textuel li au terme ne fait pas partie des variantes lexicales du terme celui ci peut tre propos comme nouvelle variante auto apprentissage de l outil vues diff rentes sur l indexation grace a des filtres automatiques par axe pour la SNOMED par type pour le TUV par diagnostic symptome pour la CIM10 par type de termes MeSH qualificatifs m tatermes type de ressources mots cl s Tous les types de termes pour chaque terminologie ainsi que les types s mantiques de PUMLS peuvent tre repris ici 152 Chapitre 5 Applications du F MTI Section 5 6 Int gration a un serveur multi terminologie association des l ments descriptifs de la ressource date titre etc g n ration d un r sum automatique avec les phrases les plus importantes ou pour chaque rubrique les termes index s Le contenu du r sum pourra tre param tr recherche d information partir d un ou de plusieurs termes appartenant aux terminologies au travers de bases de connaissances sur Internet CISMeF In tute Pubmed etc Les requ tes seront automatiquement traduites pour chaque site ranger les termes par importance la m thode de P Avillach ainsi que celle de A N v ol pourront tre reprises et combin es ici visualisation graphique de l ind
76. d identifier les domaines ainsi que les taches d indexation qui nous pr occupent Apr s analyse de l tat de l art nous avons pu d finir les limites des travaux d aide a l indexation existants Le chapitre suivant montre notre contribution en mati re d aide l indexation avec le developpement de F MTI un outil d indexation automatique multi terminologique 75 Deuxieme partie F MTI un extracteur multi terminologique pour l aide a indexation Chapitre 3 Conception de l extracteur multi terminologique 3 1 Introduction Comme expos dans le chapitre 1 les besoins recouvrant des objectifs d indexa tion ont t exprim s par les quipes impliqu es dans cette these Nous avons fait le choix de r aliser un outil multi tache g n rique en mesure de reproduire automati quement les taches suivante r alis e habituellement a la main indexation des sites Web en MeSH indexation des dossiers m dicaux en CIM10 CCAM et SNOMED 3 5 et indexation des RCP en TUV Nous avons ainsi d velopp F MTI French Multi Terminology Indexer un ou til d indexation automatique multi document multi terminologique et multi t che Nous pr sentons dans ce chapitre le fonctionnement de cet outil 3 2 Principe de la multi terminologie Cet outil integre le principe de la multi terminologie Ce principe a t inspir par l outil d aide l indexation MTI MeSH Terminology Indexer voir section 2 5
77. d indexation automatique de proposer en premier les bons termes Voorhees03 Nous retrouvons ce genre d valuation dans Neveol05 2 5 3 Travaux dans le domaine L indexation semi automatique semble une des meilleures solutions candidates pour aider les indexeurs humains dans leurs taches quotidiennes Etudions mainte nant la litt rature afin de trouver des solutions pratiques cette probl matique 2 5 3 1 Diff rentes approches Les diff rentes approches d indexation automatiques consistent d terminer ce qui dans le texte peut renvoyer vers un terme d indexation 2 5 3 1 1 M thodes de classification Cette premi re approche consiste lt apprendre gt les associations primaires que peut r aliser l tre humain entre deux notions ici une expression en langue naturelle et un terme d une terminologie L indexation peut tre rapproch e de la cat gorisation Indexer revient classer les documents selon certaines cat gories repr sent es par les termes de la termino logie utilis e Bertrand93 Ainsi Sebastiani d finit la cat gorisation de texte comme l action de chercher une liaison fonctionnelle entre un ensemble de textes et un ensemble de cat gories tiquettes classes gt ce qui est tr s proche de la d finition m me de l indexation Ainsi les approches de classification automatique de docu ments textuels ont t utilis es par de nombreux chercheurs afin d indexer ou de 60 Chapitre
78. dans la biblioth que ou chez eux gr ce Internet Les thesaurus apparus au milieu du XXe si cle sont des terminologies d di es cr es afin de d crire le contenu des documents et de permettre ainsi de compl ter les m tadonn es existantes dans les bases de donn es bibliographiques De grands fonds documentaires m dicaux ont ainsi vu le jour exemple la base de donn es Vidal sur les m dicaments Medline ou le fond documentaire du CDSA Biblioth que du Centre du droit de la sant 2 2 1 0 2 Types de recherche d information Avec l informatisation l utilisateur en qu te d information doit exprimer ses besoins dans une requ te L outil informatique va analyser cette requ te afin de pouvoir y r pondre Il existe plusieurs types de recherche la recherche factuelle il s agit d une recherche tr s pr cise Ce peut tre une re cherche d information structur e dans les bases de donn es sur les m tadonn es La recherche se fait alors sur les champs de la base de donn es exemple Quels sont les ouvrages crits par Randal L Schwartz gt renvoie les titres des ou vrages correspondants Cela peut galement consister chercher la r ponse une question pr cise dans le contenu textuel de la base documentaire exemple les syst mes de question r ponse Jacquemart03 qui peuvent donner la r ponse exacte des questions comme lt Quels sont les sympt mes de l angine gt
79. de Assurbanipal en 800 600 ans avt JC en M sopotamie les premiers catalogues r pertoires permettent de r aliser un inventaire des ouvrages et de les r pertorier afin de pouvoir les re trouver Les encyclop dies quant elles permettent d organiser les connaissances par th me Sont apparus ensuite les premi res bibliographies et tables de contenu Rome au le si cle les premiers index au 2e et 3e si cle et les classifications universelles et encyclop diques exemple premi re dition de la classification de Melvil Dewey 1875 Les ouvrages sont alors r pertori s leurs contenus bri vement explicit s et le savoir est divis en classes afin que la recherche d information soit rendue plus facile et plus rapide La m canisation a permis des op rations de tri classement par th matique interclassement avec les catalogues r alis s par listage automatique de r f rences auteur date titre etc report es sur des cartes perfor es Les r f rences sont des donn es structur es qui permettent le classement et donc la recherche facilit e des donn es textuelles qui sont non structur es Lef vre00 Ces donn es structur es sont appel es les m tadonn es ou champ de catalogage On peut distinguer les donn es sur la forme titre auteurs date etc dublin Core Dekkers03 caract ristiques externes du document et celles sur la description du contenu r sum index L op ration de catalogage permet l
80. de cette th se Nous avons adopt une d marche s quentielle ou ascen dante lt bottom up gt qui consiste partir de probl matiques concr tes d aller vers la r solution des probl mes scientifiques sous jacents Ainsi pour chaque t che d in dexation nous avons effectu une analyse du probl me partir de ces analyses nous avons propos des m thodes qui ont t exp riment es et valu es Ces valuations ont permis de d finir les limites rencontr es de proposer des applications possibles de l outil et d aborder les perspectives envisageables Dans le premier chapitre nous exposons le contexte des travaux effectu s contexte administratif et scientifique Ce chapitre permet de rendre compte des besoins ex prim s par les quipes CISMeF Vidal et LERTIM qui ont men l laboration du sujet de cette th se Le deuxi me chapitre aborde l analyse de l tat de l art relatif notre sujet qui a permis de d finir les domaines de recherche abord s la recherche d information lectronique et notamment sur l Internet la construction de bases de connaissances 9 Nomenclature Syst matique de M decine humaine et v t rinaire version 3 5 xi Chapitre 0 Introduction g n rale Section 0 4 Organisation du m moire et les syst mes d aide a la d cision Les diff rentes t ches d indexation mises en vidence dans le chapitre 1 sont aussi pr sent es la terminologie MeSH et la p
81. de l algorithme du sac de mots seule m thode alors impl ment e lors de cette valuation 4 2 2 2 Corpus d valuation Nous avons extrait au d part 1000 comptes rendus Parmis ceux ci 206 comptes rendus ce sont r v l s tre des courriers ou des comptes rendus ne respectant pas les rubriques identif es ou le codage en CIM10 et CCAM n a pu tre raccroch ceux ci F MTI a donc t valu sur un corpus de 794 comptes rendus d hospi talisation 490 provenant de s jours en Cardiologie et 304 provenant de s jours en Pneumologie effectu s au CHU de Rouen Nous avons choisi ces secteurs car ils font 119 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es partie du domaine d expertise de notre expert en codage Dr P Massari Ces dos siers concernent 794 patients diff rents ayant effectu s un s jour en 2007 Ils ont t extraits du logiciel de gestion de dossier patient lectronique du CHU de Rouen nomm CDP2 Massari00 1 080 384 patients et 182 808 comptes rendus d hospita lisation en 2005 Un compte rendu d hospitalisation d taille les ant c dents du patient les exa mens qu il a subi les actes r alis s les r sultats et la prescription de m dicaments Ces r sum s sont tap s a la sortie du patient de l unit de soin par les m decins en charge du patient ou les secr taires dans le secteur oti ont t effectu s les soins Puis ces compte
82. de l EMEA European Medecines agency Afin de commercialiser un nouveau m dicament ou sp cialit pharmaceutique le labora toire pharmaceutique doit faire aupr s de l organisme habilit Afssaps en France une demande d Autorisation de Mise sur le March AMM nationale ou europ enne 36 Pour tester une recherche sur 3 lt recos gt voir http www vidalrecos fr pages index php 37 ce jour il semble que les deux outils les plus utilis s pour diffuser les recommandations francophones soient CISMEF Bonnes Pratiques et Vidal Recos 38 Afssaps Agence fran aise de s curit sanitaire des produits de sant 13 Chapitre 1 Contexte Section 1 3 Contexte scientifique pour celui ci A la demande d AMM est associ un dossier comprenant entre autres le r sultat d tudes cliniques visant d montrer l int r t de usage du m dicament dans le traitement de la pathologie laquelle il est destin Lorsque l AMM est ac cord e elle est accompagn e d une d cision et d annexes dont le RCP R sum des caract ristiques du Produit reprenant les donn es cliniques du m dicament de la notice et de l tiquetage Art L 5121 8 du Code de la Sant Publique Par la suite il peut tre proc der une mise jour du RCP via des rectificatifs d AMM associ s de nouveaux RCP Le RCP pr cise notamment la d nomination du m dicament la composition qua litative et quantitative la forme ph
83. diff rentes de r diger les comptes rendus selon leur formation Les m thodes de codage varient selon le secteur m dical Rouen Les cardiologues ne codent que le strict n cessaire pour le PMSI Alors que les pneumologues codent tout m me ce qui semble peu important On trouve aussi beaucoup de malades polypathologiques en Pneumologie ce qui peut expliquer le nombre de codes important Les cardiologues codent ainsi en moyenne 1 4 codes pour leurs comptes rendus et les pneumologues 5 8 L indexation des sympt mes et des diagnotics La restriction aux termes reli s la sp cialit et aux termes lt diagnostics gt et lt sympt mes gt montre des r sultats int ressants avec un rappel de plus de 75 pour l indexation des diagnostics et de 96 pour l indexation des sympt mes Comme il a t fait tat d un nombre trop lev s de codes pr sent s aux indexeurs humains par F MTI nous pouvons imaginer 125 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es leur pr senter l indexation automatique sous diff rentes vues pour une aide lin dexation semi automatique Les diagnostics et les sympt mes pourraient tre deux vues M thodes d valuation Le pourcentage d erreur inter indexeurs est de plus de 10 pour le 3 me digit du code CIM10 et de 25 30 pour le 4 me digit D apr s D Nakache le niveau de reproductibilit totale est tr s faible 18 de consensu
84. discipline im posant un transcodage a posteriori en CIM10 Les diagnostics sont cod s selon des r gles tr s strictes les consignes sont disponibles sur le site de l ATIH sous peine de ne pas passer les contr les de l assurance maladie DIAGNOSTIC DE SEJOUR Y4 7 6 1 Du 12 04 2005 09 25 41 p PAE N te le Sex MES D 5632 PNEUMOLO FA du 120 Codes di du s ic 1 1890 9 SEQUELLES DE TUBERCULOSE DES VOIES RESPIRATOIRES ET SAI 2_ J94 1 FIBROTHORAX 3_ K21 9 REFLUX GASTRO OESOPHAGIEN SANS OESOPHAGITE OU SAI 4 299 8D DEPENDANCE EN 02 5 0 Autre diag 0 Autre diag 0 a Autre diag Autre diag SES A si b b de moins de 28 jours au Poids du b b I ente dans le service __ een SCORE IGS SCORE OMEGA fo rnuler alder Eemer FIGURE 2 9 Codage CIM10 du compte rendu d hospitalisation visualis a partir du logiciel CDP2 le logiciel de dossier patient lectronique du CHU de Rouen les actes m dicaux sont cod s selon la plus r cente version en vigueur de la CCAM voir section 2 4 3 3 Le codage d un acte CCAM associe obligatoire ment son code principal la phase l activit le nombre d ex cutions de l acte pendant le s jour Les autres codes sont facultatifs extension documentaire modificateurs remboursement exceptionnel etc De la m me fa on les actes sont cod s selon des r gles tr s stricte
85. donn es par les professionnels de sant plus complexe ce qui entraine encore ici un probleme de temps 176 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 3 Recherche par sp cialit m dicale Chaque s jour est li des codes CIM10 et ventuellement CCAM et un ou plu sieurs comptes rendus m dicaux Une solution serait d impl menter des vues adapt es aux besoins de l utilisateur en mettant en oeuvre des outils terminologiques C est ce qui a t r alis par un clinicien P Massari et le chef des documenta listes de l quipe CISMeF B Thirion en appliquant les m tatermes CISMeF voir section 5 8 1 aux terminologies du dossier patient fran ais Ces lt super concepts gt ont t adapt s la CIM10 et plusieurs classifications d actes m dicaux la CCAM Rodrigues05 utilis e depuis 2005 le CDAM le Cata logue Des Actes M dicaux utilis s avant la CCAM pour les actes th rapeutiques et diagnostics et ADICAP l Association pour le D veloppement de l Informatique en Cytologie et Anatomo Pathologie pour les examens d anatomie pathologie Sur 123 m tatermes CISMeF 66 ont t r utilis s ici soit 54 Les liens s mantiques ont t cr s manuellement pour chaque super concept de 0 n relations vers les classifica tions CIM10 CCAM CDAM et ADICAP voir figure 7 5 Exemple le m taterme Classification Nombre de
86. du catalogue ainsi que son am lioration et son volution tant en termes de technologies utilis es que de rendement et de faci lit d utilisation pour l utilisateur Les indexeurs de l quipe sont charg s d indexer toute nouvelle ressource Web s l ctionn e l aide de la terminologie MeSH Internet fournissant une masse de donn es titanesque en sant de l ordre de 7 millions de pages cr es par jour tous domaines confondus il est important de disposer d outils d indexation automatique et d aide l indexation afin de faciliter et de rendre plus rapide ce travail Dans le domaine du m dicament de nombreux travaux en mati re d aide la d cision permettent de s curiser les prescriptions existent C est le cas des banques de donn es Th riaque BDSP et notament de la soci t Vidal qui diffuse des in formations sur le m dicament et produit des outils de s curisation pour les pres criptions Le travail des indexeurs de l quipe Vidal consiste indexer manuelle ment les R sum s Caract ristiques des Produits RCP contenant toutes les infor mations th rapeutiques pour les m dicaments indications contre indications effets ind sirables etc l aide des terminologies Vidal La masse des RCP traiter est importante de l ordre de 600 1200 par mois Il serait donc n cessaire de disposer d outils facilitant leurs indexation afin de maintenir une base de qualit avec des donn es
87. en 2001 Tassement vert bral Hernie ombilicale Hernie hiatale Hypertension art rielle Hypercholest rol mie Diab te de type 11 Tabagisme 60 paquets ann e non sevr Le 18 10 2004 apparition d une douleur thoracique r trosternele constrictive en tau au repos irradiant dans l paule et la machoire durant 5 mn Le patient consulte en urgence en cardiologie mais refuse l hospitalisation et repart chez lui Le 22 10 2004 vers 1 H du matin r cidive de le douleur motivant l appel du SAMU EXAMEN CLINIQUE 67 kg pour 1 66 m Tension art rielle 15 8 Bruits du coeur r guliers Pas de souffle Pas de frottement Pas de signe d insuffisance veuticulsire droite ou gauche Pouls p riph riques tous per us ELECTROCARDIOGRAMME Rythme sinusal 72 mn PR normal QRS fins Axe gauche Onde T n gative en D3 RADIO THORACIQUE Non faite BIOLOGIE Troponine 0 plusieurs reprises Cf Feuille ci jointe volu TION Le patient a pr sent des r cidives douloureuses dans le service de quelques secondes sans modification ECG ou sans l vation de la troponine au cours de l hospitalisation Epreuve d effort maquili e sous maximale 70 n gative lectriquement et douteuse cliniquement ll est d cid de laisser sortir Mr X avec un traitement m dical et de le reconvoquer pour une preuve d effort d maquill e distance AU TOTAL Douleurs thoraciques d allure angineuse sans modification ECG sans l vation de
88. envisager que les principales diff rences de r sultats entre les deux ou tils sont li es aux diff rences de transcodage SNOMED CIM10 utilis s L application 129 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es du m me transcodage que celui utilis par F MTI a aboutit une diminution de 8 9 de la pr cision et une augmentation du rappel de 2 5 La projection des codes SNOMED vers la CIM10 a montr que compar a une indexation manuelle SnoCode produisait une meilleure pr cision 2 et un plus faible rappel 6 en terme d extraction de maladies Les r sultats peuvent tre consid r s comme assez proches alors que nous comparons un systeme mono terminologique de plus de 20 ans d exp rience et un systeme multi terminologique de seulement 6 et qui peut encore beaucoup voluer Sachant que SnoCode est un outil d ja commercialis et en place dans certains hopitaux nous pouvons consid rer que les r sultats obtenus par F MTI sont relativement satisfaisants Analyse des r sultats L analyse de l indexation produite par F MTI met en vidence quelques erreurs L extraction de termes non pertinents pour l indexation par exemple les termes de l axe G de la SNOMED contenant les qualificatifs et termes de relations qui n ont aucun sens lorsqu ils ne sont pas reli s aux autres termes SNOMED F MTI tout comme SnoCode ne permettent pas de relier des
89. es la m decine Des comit s pairs se sont ainsi organis s pour les journaux scientifiques afin de valider les informations Darmoni98 Des moteurs de recherche fonctionnant sur des bases de donn es sp cialis es ont aussi vu le jour comme Pubmed qui recense 17 millions d articles scientifiques essentiellement en langue anglaise R f rences de mars 2008 http www internetworldstats com stats htm Accessible via http www google fr http www yahoo fr http www ncbi nlm nih gov pubmed Nour 23 Chapitre 2 tat de l art Section 2 2 Fondements de la recherche d information et des bases de connaissances 2 2 3 Bases de connaissance et syst mes d aide la d cision La soci t Vidal d veloppe une base de connaissances pour alimenter des outils d aide la prescription Ce type d outil entre dans la cat gorie des syst mes d aide la d cision Depuis la fin des ann es 40 de nombreux travaux ont t conduits par les com munaut s d Intelligence Artificielle et d Informatique M dicale afin de d velopper des syst mes d aide la d cision capables d am liorer la strat gie diagnostique ou th rapeutique des m decins dans diff rentes sp cialit s m dicales L outil informatique peut apporter une aide directe pour prendre une d cision Il peut faciliter l acc s aux donn es du patient et am liorer leurs repr sentations comptes rendus tableaux de synth se I
90. est souvent prise comme r f rence alors qu un m me document peut tre index par des ensembles diff rents de termes qui seront tous correctes Dans le cadre de groupes d indexeurs o la t che d indexation rencontre une consistance inter indexeur faible ce qui est souvent le cas Funk83a la qualit de l indexation produite est souvent sous estim e Des tudes ont t men es afin de proposer des solutions Une premiere solution est de consid rer comme gold standard gt le consensus de plusieurs propo sitions d indexation manuelle Wilbur98 Une deuxieme solution consiste a utiliser la similarit s mantique Dans les diff rentes valuations la plupart du temps deux termes provenant de deux indexa tions diff rentes sont consid r s quivalents si les deux termes sont exactement les m mes On peut nuancer cette valuation en introduisant une mesure de simila rit s mantique N v ol06 Cette mesure est fond e sur l hypoth se que les termes poss dant le plus de points communs anc tres sont consid r s comme tant plus proches Cette mesure a t inspir e de la mesure de similarit de Dice Lin98 La similarit s mantique entre deux ensembles est d finie comme suit voir figure 2 19 S mi mj repr sente l ensemble des anc tres partag s par les deux termes mi et mj lt max gt repr sente le maximum et p m est la probabilit de trouver m ou l un de ses descendants index s dans un corpus
91. figure 3 14 Pour chaque transducteur le remplissage FIGURE 3 14 Transducteur g n rique 3 lemmes 21 12 est la taille maximale du nombre de lemmes pour nos termes 101 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point pour un nouveau terme est automatique La proc dure a t enregistr e l aide d un outil d enregistrement de s quences Action Recorder 2 La construction des transducteurs se fait l aide du logiciel WinMacro qui va pour chaque terme de notre ensemble Ouvrir l application NooJ qui permet de construire les transducteurs Ouvrir le transducteur g n rique correspondant au nombre de lemmes du terme dans l application NooJ Ouvrir le fichier terme du terme Ex cuter la s quence enregistr e pour ce transducteur g n rique gr ce Ac tionRecorder La s quence consiste copier coller le contenu du ficher terme dans le transducteur enregistrer le transducteur en NbLemme_CodeTerme nog fermer le logiciel NooJ Script Perl g n re la macro pour le traitement de tous les termes 33 719 termes Vidal WinMacro macro Algorithme du sac de mots Pour chaque terme o Ouvrir NOOJ et le transducteur g n rique lin 33 719 fichiers_lemme contenant correspondant au nombre de lemme du terme a les lemmes pour chaque terme Ouvrir le fichier_lemme du terme Lancer Action Recorder MWiNbLemme_Code_Term
92. gration scolaire enfants handicap s types information patient et grand public NLM Gateway acc s httpz www integrascol frifichemaladie php id 18 M Gateway FIGURE 1 3 Exemple de recherche simple avec Doc CISMeF op rateurs bool ens ET OU SAUF La recherche bool enne pour les utilisateurs exp riment s s effectue l aide d un langage de requ tes particulier utilisant des op rateurs bool ens et des caract res sp ciaux Une recherche via le serveur de terminologie permet de rechercher des in formations partir d un mot cl La recherche sur le mot cl peut tre affin e gr ce l association de qualificatifs avant d tre lanc e sur CISMeF pour retrouver des documents en fran ais ou sur MEDLINE pour retrouver des documents en anglais Thirion07 Par ailleurs CISMeF donne acc s d autres sites sp cialis s dans la recherche de do cuments dans le domaine de la sant L acc s ces sites est donn de mani re contex tuelle dans CISMeF voir l onglet m me recherche avec figure 1 3 Par exemple si l utilisateur recherche des recommandations le syst me a d tect le concept lt re commandations gt dans la requ te tap e par l utilisateur alors lui est propos c t des ressources CISMeF un acc s d autres sites de r f rences pour les recommanda tions afin d tendre sa recherche NGC OMNI etc Le m me principe est utilis 18 L
93. l indexa tion des RCP R sum des Caract ristiques du Produit 8 Elle est constitu e de six pharmaciens sp cialistes de indexation les indexeurs d une pharma cienne charg e des thesaurus et d une linguiste sp cialis e dans le Traitement Automatique du Langage l quipe du LERTIM dirig e par le Professeur Marius Fieschi au Centre Hospitalo Universitaire de La Timone Marseille L quipe est constitu e de trois professeurs neuf ma tres de conf rence cinq praticiens et assistants hos pitaliers deux intervenants du service de sant des arm es en Epid miologie et Sant Publique deux ing nieurs et techniciens et sept doctorants 1 3 Contexte scientifique 1 3 1 Travaux de l quipe CISMeF 1 3 1 1 Domaine de Recherche de l quipe CISMeF De nombreux travaux ont t entrepris par l quipe CISMeF dans le domaine de la recherche d information en sant et plus particuli rement dans la recherche documentaire afin de guider les utilisateurs dans leur qu te d informations m dicales Internet conna t depuis le d but des ann es 90 un grand essor mondial avec une 5 Site Internet du groupe http www cmpmedica com 6 Site Internet du laboratoire http cybertim timone univ mrs fr 7 Le site Internet du CHU de Rouen http www chu rouen fr 8 Les RCP comportent les donn es cliniques des sp cialit s pharmaceutiques ayant fait l objet d une AMM Autorisation de Mise sur le March attr
94. l mentaires pris dans ces axes La base conceptuelle du codage pluri axial repose sur la combinaison d un site anatomique d une alt ration en ce site d une cause lorsqu elle est connue des effets physio pathologiques des circonstances d apparition et des actions diagnostiques ou th rapeutiques entreprises L axe des qualificatifs et termes relationnels G contient des concepts suppl mentaires ser vant qualifier ces concepts ou pr ciser leurs liens dans le concept complexe Par exemple une appendicite aigu gt pourra tre repr sent e par la combinaison des 48 Un hyponyme est un mot dont le sens est hi rarchiquement plus sp cifique que celui d un autre On parle aussi de relation lt partie tout gt ex tulipe est un hyponyme du mot fleur 55 Chapitre 2 tat de l art Section 2 5 Aide l indexation concepts lt inflammation SAI gt M 41000 lt aigu gt G A231 lt dans gt G C006 lt ap pendice vermiculaire SAI gt T 59200 ces terme sont reli s par une relation dite de r f rence gt D0 10430 01 pemphigoide SAT T 01000 D0 10430 02 pemphigus b nin SAT T 01000 D0 10431 01 pemphigoide bulleux T 01000 M 51551 M 36760 0 10432 01 pemphigus b nin des muqueuses T 00400 M 43000 G C009 T AAO000 F 01250 Concepts r f renc s peat SAI ctan T 01000 aasntholyse M 51551 ambonie SAI M 36760 muguense T 00400 seflammaton
95. la troponine D couverte d une hypercholest ral mie et d un diab te de type IL i devra consulter une di t ticienne pour r gime diab tique et hypachotest rai miant Epreuve d effort d maquill e en externe TRAITEMENT DE SORTIE KARDEGIC 160 1 j NITRIDERM 10 1 j MOPRAL 20 1 j TAHOR 10 1 j FIGURE 2 8 Extrait d un compte rendu d hospitalisation dans le secteur cardiologie de h pital de Rouen pendant son s jour dans le secteur MCO Ce r sum doit obligatoirement contenir un certain nombre d informations administratives et m dicales r pertori es dans Varr t du 27 et 28 f vrier 2006 qui sont cod es pour permettre des traitements informatiques Les informations administratives pour l identification du s jour du malade sont le sexe la date de naissance le code postal la date d entr e et de sortie le nombre de s ances ainsi que les identifiants de s jour de l unit m dicale et de V tablissement Les informations m dicales recueillies dans le RSS sont 46 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation les diagnostics un diagnostic principal un des diagnostic s reli s 3 et un des diagnostic s associ s 4 significatif s Les diagnostics sont cod s selon la CIM10 voir section 2 4 3 2 voir figure 2 9 pour un exemple de codage de s jour Certains services utilisent des normes sp cifiques leur
96. la CCAM au for malisme UML 4 2 2 4 ea 6s bie eee nas ue A le Bee ee en A 5 Diagramme de classes repr sentant la structure de la SNOMED au formalisme UML 34 4 a oe ow eR oe eR ew Ren we we A Ge A 6 Assignation manuelle de m tatermes aux codes CIM10 173 174 200 A 7 R sultats de la comparaison entre le transcodage manuel et automatique201 A 8 Ecran de connexion de l utilisateur au logiciel CDP2 et acc s aux diagnostics s jours dum patient 4 5 022 me ek ee eS e ess A 9 Codages CIM10 du compte rendu d hospitalisation avec le bouton CISMeF pour le diagnostic lt agranulocytose gt A 10 Page CISMeF avec les listes des documents correspondant la requ te lt Agranulocytose mc et recommandations tr gt A 11 Page CISMeF avec la liste des documents correspondant la requ te lt Agranulocytose mc et recommandations tr gt A 12 Page CISMeF avec les listes des documents correspondant la requ te lt troubles mentaux mc et mat riel p dagogique tr gt A 13 Acc s la fiche de synth se appel e fiche r capitulative dans le DEP et a la fiche de synth se avec le bouton CISMeF pour les diagnostics de s jour tableau du milieu A 14 Page Web contenant les principaux sites de recherche en sant sur Internet si eae Liu ee Re RE Ew a BOR ae 4 230
97. la SNOMED 3 5 Une future version de F MTI int grera ces r gles et ces relations Le probleme du contexte ant c dents autre membre de la famille touch e n gations etc Des am liorations au niveau de l analyse du contexte avec par exemple des transducteurs pourront tre impl ment es F MTT ne peut raisonner comme un m decin et par exemple associer des id es provenant de diff rentes parties du texte Un syst me de r gles pourra tre utile ici 130 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es Les probl mes de formulation il existe un manque de pr cision au niveau des diagnostics non d crits dans les comptes rendus Les m decins devront tre invit s mieux d crire l tat de leur patient L valuation Cette approche d valuation consistant employer un transco dage vers d autres terminologies moins complexes pourra facilement tre appliqu e pour d autres valuations o l indexation manuelle est difficile par exemple pour la SNOMED CT qui est beaucoup plus complexe que la SNOMED 3 5 et qui poss de des liens d quivalences avec la CIM10 dans l UMELS Un expert n indexe manuellement pas plus de 5 codes par compte rendu En re vanche un outil automatique indexe dix fois plus de codes Ce qui am ne la r flexion suivante faut il tout coder dans un compte rendu m dical Tout y est il important Lors d une cons
98. le Vidal De nouveaux mod les de comptes rendus pourront tre aussi int gr s F MTI afin d tre en mesure de traiter des comptes rendus provenant d h pitaux et de secteurs diff rents 5 8 Aide au transcodage F MTI permet de retrouver partir d une requ te ou d une phrase des termes appartenant diff rentes terminologies Une m thode identique pourrait tre utilis e dans le cadre du transcodage automatique afin de d terminer partir d un terme les autres termes appartenant d autres terminologies auxquels il renvoit 5 8 1 CCAM MESH Nous avons test cette hypoth se dans le cadre du transcodage CCAM MeSH r alis pour des besoins d acc s contextuel dans le dossier patient l ctronique voir chapitre 6 Ce transcodage a t r alis la main par un expert du codage CCAM P Massari de l quipe CISMeF et par un expert du thesaurus MeSH B Thirion de l quipe CISMeF Nous avons profit de l occasion pour r aliser un autre transcodage enti rement automatique gr ce F MTI Nous avons pu ainsi comparer ces deux transcodages manuel et automatique Pereira07 Pereira et valuer l outil F MTI dans une t che de transcodage automatique L indexation manuelle a consist analyser chaque terme CCAM et l associer 0 ou plusieurs termes MeSH L utilisation du mod le GALEN 12 donne une signification au code lui m me par les quatre lettres qu il contient voir c
99. le moteur de recherche CISMeF Seule la terminologie MeSH est aujourd hui utilis e pour l indexation des res sources alors que d autres terminologies pourraient am liorer cette indexation et permettre une recherche plus pr cise et plus adapt e selon les utilisateurs titre d exemple la CCAM est mieux adapt e la description des actes m dicaux que le MeSH Une recherche de ressources concernant des actes m dicaux restera tr s g n raliste avec le MeSH alors qu elle sera tr s pr cise avec la CCAM De plus les professionnels de sant amen s utiliser de plus en plus des terminologies sp cifiques 149 Chapitre 5 Applications du F MTI Section 5 5 Indexation automatique de ressources Web dans leur quotidien professionnel sont familiaris s avec certaines terminologies et seraient plus dispos s rechercher de l information avec ces terminologies l A ce titre CISMeF souhaiterait passer d un univers mono terminologique un univers multi terminologique en indexant les documents l aide de plusieurs terminologies Les terminologies d int r t pour CISMeF sont celles traduites en fran ais et les plus usit es dans le monde m dical le MeSH Medical Subject Headings et la terminologie CISMeF Douy re04 les terminologies de bases de la recherche d information la SNOMED 3 5 C t 93 Systematized Nomenclature of Medicine la termi nologie choisie par la France pour structurer les dossie
100. les deux outils transcod ces codes en leurs quivalents CIM10 Tout d abord les deux r sultats d indexation g n r s par F MTI et SnoCode ont t compar s sans r f rence avec des mesures simples Puis les deux indexations ont t transcod es en CIM10 et compar es aux r sultats de l indexation manuelle des criptive r alis e par l expert voir section pr c dente Le transcodage r alis par les deux syst mes est diff rent SnoCode utilise le trans codage fran ais cr par la SFINM F MTI utilise la somme de deux transcodages SNOMED CIM10 celui de l UMLS 2007AA et celui produit par la SFINM C est la raison pour laquelle nous avons r alis deux valuations une avec les diff rents transcodages et l autre avec l utilisation pour les deux outils du m me transcodage en occurence celui utilis par F MTI 4 2 3 2 Corpus d valuation Nous avons repris les 100 comptes rendus index s en CIM10 voir section 4 2 2 4 2 3 3 Mesures d valuation Nous avons utilis la mesure de Hooper voir section 2 5 2 pour comparer les deux ensembles de codes SNOMED produits par les deux outils Cette mesure est habi tuellement utilis e pour mesurer la consistance de l indexation entre deux indexeurs humains Nous l utilisons ici afin de comparer les r sultats de nos deux indexations automatiques en consid rant F MTI et SnoCode comme deux indexeurs potentiels Nous avons galement calcul le recou
101. les variantes lexicales et d rivationnelles cr es lors de pr c dents travaux Nous avons ainsi analys le lexique m dical unifi francophone cr dans le projet UMLF Zweigenbaum03 le diction naire MeSH r alis par A N v ol N v ol05a et les lexiques cr s dans le projet VUMeF Darmoni03b Les variantes rattach es des lib ll s quivalents TUV ont ainsi t recueillies et ajout es au dictionnaire de termes 3 8 2 3 Recueil automatique de nouvelles variantes Les grammaires morphologiques et syntaxiques permettent de pr ciser la forme des variantes pour un terme voir section 2 5 3 1 Nous avons utilis ces grammaires afin de d finir pour chaque terme un patron d extraction capable d extraire dans un corpus ses variantes d rivationnelles flexionnelles et synonymiques qui viendront 15 Ensemble de documents 99 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point compl ter le dictionnaire de termes TUV Un grand nombre de d rivations flexions ou synonymes d un terme ne sont que le reflet des d rivations flexions ou synonymes des mots signifiant qui le composent reli s par des mots de liaison principe que l on retrouve dans la m thode du sac de mots Par exemple les formes textuelles du terme lt diminution des facteurs de coa gulation gt peuvent tre repr sent es par le transducteur pr sent la figure 3 13 lt di minut
102. lors tre rattach es un terme d une terminologie Par exemple pour la rubrique lt ant c dents gt l int gralit des phrases de cette rubrique va porter sur les ant c dents du patient Il est difficile de rep rer dans les phrases que les ma ladies concern es sont des ant c dents soit parce que ces phrases ne sont qu une num ration de maladies soit parce que le seul l ment qui montre que cela est un ant c dent est la conjugaison du verbe au pass Nous pr sentons la fa on dont cela a t impl ment dans les diff rentes m thodes M thode du sac de mots pour chaque phrase de la rubrique il est ajout au sac de mots correspondant le lemme ou st me du mot lt ant c dent gt voir figure 109 Chapitre 3 Conception de l extracteur multi terminologique Section 3 11 Fusion des indexations produites par les trois m thodes 3 12 pour un exemple M thode du dictionnaire de constituants le constituant lt ant c dent gt est ajout au traitement de chaque phrase appartenant la rubrique M thode du dictionnaire de termes pour cette m thode une m thode base de r gles peut tre envisag e Exemple Si rubrique lt ant c dentsz et tumeur maligne gt appartient termes index s Alors indexer lt Ant c dent de tumeur maligne gt Cette m thode n cessite de d finir toutes les r gles et de les valider par un expert Cette m thode pourra tre envisag e dans
103. ment par l indexeur auto apprentissage de l outil si le fragment textuel li au terme ne fait pas partie des variantes lexicales du terme celui ci peut tre propos comme nouvelle variante Une nouvelle variante ou un nouveau terme ne sera effectif qu apr s validation par le gestionnaire de thesaurus 5 2 2 Int gration de F MTI dans l outil BIBLIS Dans l outil BIBLIS F MTI permettra l indexeur de consulter avant le d marrage de sa propre indexation une proposition d indexation automatique du document qu il va indexer F MTT sera donc appliqu en amont au moment o le document est re u par l quipe donn es th rapeutiques Le fichier de sortie de F MTI a t mod lis au format d entr e de BIBLIS Ce fichier contient les termes propos s pour l indexation du RCP avec leurs types ainsi que les fragments et localisations correspondant Les fragments textuels seront soit la phrase dans laquelle a t trouv e le terme soit les mots du sac de mots ayant permis l appariement au terme d indexation L indexeur ouvrant BIBLIS pour indexer un nouveau RCP aura acces la pro position d indexation automatique de F MTT et pourra des lors choisir de garder certains termes puis pourra les pr ciser en ajoutant certains contextes L outil BIBLIS est capable de d finir de nouvelles variantes au fur et mesure de nouvelles indexations Ces nouvelles variantes seront int gr es l outil F MTI qui a
104. nostics cod s en CIM10 et les actes cod s en CCAM en une forme compatible avec l indexation des ressources L indexation des ressources pour tous ces sites utilise la terminologie MeSH voir section 2 4 1 1 outre pour leur contenu de qualit c est la raison pour laquelle nous les avons selectionn s Pour ce faire nous avons utilis le transcodages CCAM gt MeSH voir section 5 8 1 et CIM10 gt MeSH extrait du Meta thesaurus de UMLS version 2004AC voir section 2 3 2 La table ainsi obtenue voir figure 7 1 contient plusieurs termes MeSH possibles pour un m me code CIM10 terme pr f r synonymes et terme correspondant a une plage CIM10 ex A15 A19 9 Nous avons d cid de ne pas consid rer les sy ODE CNTG NERECOMMANDATION o mea O TT os koea oo 7 o 7 15 AI99 heroe gt f gt o haog 3 gt 99 F99 9_ Troubles mentaux 155 18 a FIGURE 7 1 Extrait de la table de transcodage CIM10 MeSH int gr au DEP 1 1 3 2 174 nonymes seulement les termes pr f r s les synonymes sont explor s au moment de la requ te sur les sites interrog s Si le code CIM10 est transcodable en plusieurs termes MeSH un terme pr f r plus un terme MeSH regroupant une plage de code CIM10 le terme pr f r est choisi en priorit La table finale contient 1 629 transco dages CIM10 gt MeSH ce qui est peu par rapport aux 18 000 codes CIM10 existants environ 10 Les deux boutons sont pr s
105. of gt ou lt except gt D autres permettent de les apprendre gr ce des m thodes d apprentissage automatique Averbuch04 Pour le fran ais Baneyx a d velopp une m thode simple un transducteur permettant de d tecter les formes n gatives pour les maladies sympt mes et signes Baneyx06 Comme nous avons pu le voir la n gation et les exceptions ont d abord t g r es dans les termes d indexation eux m me gr ce l laboration de libell s d indexation voir section 3 5 Pour l identification de n gations dans la phrase nous nous sommes fond sur les m thodes de TAL cit es ci dessus Voici comment sont rep r es les n gations pour nos trois m thodes M thode du sac de mots les expressions marquant la n gation sont le plus souvent limin es du sac de mots car elles font parties des mots vides exemple lt pas gt et lt sans gt L une des solutions est lors du d coupage en mots de la phrase de rep rer les expressions n gatives exemple pas de gt Le mot qui suit ce genre d expressions n gatives peut tre limin du sac de mots La m thode tant peu efficace nous ne l avons pas impl ment e M thode du dictionnaire de termes pour cette m thode des transducteurs permettent de d tecter les termes impliqu s dans une n gation ou une exception voir figure 3 17 3 18 3 19 rien ne personne ne FIGURE 3 17 Transducteur permettant d identifier les t
106. ou non Classe des Notes cette classe indique les notes qui peuvent tre rattach s aux termes CCAM voir annexe n 11 Quelques commentaires l attribut type_note indique le type de la note a lexclusion de gt lt comprend gt lt inclut gt etc Classe des Dents incompatibles cette classe indique les localisations de 195 Chapitre A Annexes Section A 2 Mod les unitaires pour la base de donn es multi terminologique dents incompatibles avec l acte pratiqu Quelques commentaires l attribut loc dent indique les localisations de dents incompatibles avec l acte d sign pr c demment Classe CCAMMesSH cette classe contient le transcodage CCAM MeSH qui a t r alis par Philippe Massari voir chapitre 6 de la th se Quelques commentaires l attribut type qualifie le type du code MeSH technique Classe CCAMMTCISMeF cette classe r uni pour chaque code CCAM les m tatermes qui y sont rattach s A 2 5 Mod le SNOMED 3 5 code_p re char code_filschar niveauint Code char terme char axe char Fmodint Fdassint angue char 12 code_r f rent char code_r f rence char SNOMED_CIM10 codeSNOMED char codeCiM10 char FIGURE A 5 Diagramme de classes repr sentant la structure de la SNOMED au formalisme UML Enfin nous avons r alis le dernier mod le celui de la SNOMED 3 5 voir figure A 5 Celui ci comporte 4 classe
107. pes 33 Les 15 arborescences MeSH et un extrait de l arborescence C 37 Les liens s mantiques entre les m tatermes CISMeF et les termes MeSH 38 Extrat du TUV p sa e ok ee a ge ae ee oe ae Bane pee a h 44 Extrait d un compte rendu d hospitalisation dans le secteur cardiolo gie de l hopital de Rouen 4 Lx aa a 46 Codage CIM10 du compte rendu d hospitalisation visualis partir du logiciel CDP2 le logiciel de dossier patient lectronique du CHU de ROUET 2 4 ace eu a e a e aa ae REED OES HS 47 Extrait de la classification CIM10 49 Extrait de la classification CIM10 pr sentant un terme syst matique accompagn de ses descripteurs 2 ao a a 50 Extrait de la classification CIM10 pr sentant pour un terme syst matique les exclusions et inclusions auquel il renvoi 50 Extrait de la classification CIM10 pr sentant un exemple d ast risque syst matique 4 4 44 es 44 eee eee es ee ewe bee 51 Extrait du chapitre 1 de la CCAM 52 Structuration du code CCAM 53 Les axes de la SNOMED 3 5 25 aaa aaa eo Ee sx eS 55 Termes synonymies et r f rences dans la SNOMED 3 5 56 Evaluation de l indexation produite les mesures de consistances 58 Mesure de similarit ooa ewe ae eed oe ee Oe YDS LSS 60 Repr sentation du probl me de la classification automatique 61 227 Chapitre A TABLE DES FIGURES Section A
108. plus co teuse en temps lors de l ajout d une nouvelle ressource au catalogue En effet elle est r alis e la main et demande une fine analyse du docu ment et de la terminologie ainsi que de bonnes connaissances m tiers Etant donn le nombre croissant de ressources m dicales de qualit sur Internet l quipe CISMeF a cherch augmenter sa productivit en disposant d outils automatiques pour l in dexation Ainsi en 2005 les travaux de th se d A N v ol N v ol05b N v ol05a ont men s l laboration du syst me MAIF MeSH Automatic Indexing in French un syst me d indexation automatique pour le MeSH D autres travaux ont port sur l in dexation automatique et la recherche bimodale combin e texte et image travaux de Philippe Florea Florea07b Florea07a CISMeF a enfin su valoriser ses travaux de recherche avec l aboutissement de nombreux projets industriels Le catalogue CISMeF a ainsi donn naissance d autres portails d information gr ce des partenariats avec des industriels ces portails ve nant directement interroger le moteur de recherche CISMeF sur un type de document pr cis Le site CISMeF Bonnes pratiques permet de ne diffuser que les recomman 24 L Unified Medical Langage System contient plus de 100 terminologies m dicale en diff rentes langues celui ci est d crit dans la section 2 3 2 3 3 25 Portail accessible ici http doccismef chu rouen fr servlets CISMeFB
109. plus de 100 terminologies Dans le fonctionnement c est l outil Me taMap inclus dans MTI qui extrait tous les termes du metath saurus puis restreint tous les termes extraits aux termes MeSH s mantiquement plus proches pour r aliser une proposition d indexation MeSH Tout comme MTI F MTI r alise une extraction en deux temps tout d abord une extraction des concepts pour les cing terminologies CIM10 SNOMED 3 5 CCAM MeSH TUV puis une restriction aux termes de la ou des terminologie s param tr e s en sortie s mantiquement quivalents via les relations de transcodage 3 3 Principe de fonctionnement F MTI Un Document Un ensemble de documents RCP lettre de sortie ou site Internet Phrases Ensemble de phrases corpus Termes MeSH CCAM SNOMED TUV et CIM10 EE ae Proposition d indexation multi ou mono terminologie FIGURE 3 1 Principe de fonctionnement de F MTI F MTI permet une indexation multi document du texte Le programme prend en entr e un document ou un ensemble de documents au format texte Ces documents peuvent tre de diff rentes natures mais un traitement particulier est r alis pour les comptes rendus hospitaliers les sites m dicaux et les RCP afin de produire une indexation d pendante du type de document Le choix des terminologies d indexation peut tre param tr en entr e mais par d faut les comptes rendus hospitaliers seront index es en CIM10 CCAM et SNO MED 3
110. qui permettent de d finir des liens s mantiques et des liens inter terminologies entres les termes ainsi que les concepts de l UMLS Enfin il nous a paru important de distinguer d une part les variantes lexicales propres la terminologie et celles incluses dans un dictionnaire et d autre part les relations intra et inter terminologies Le mod le g n ral a ainsi t d fini selon 7 classes voir figure 3 4 voir Annexes Mod les unitaires Classe des Concepts UMLS cette classe indique pour chaque code des diff rentes terminologies les liens vers les concepts UMLS quand ils existent donc seulement pour les codes MeSH exclu les termes sp cifiques CISMeF CIM10 et SNOMED Cette classe est inspir e de la table MRCONSO conte nant les sources et les noms des concepts dans le Metath saurus de l UMLS voir Annexes 2 http www nlm nih gov research umls metab html 82 Chapitre 3 Conception de l extracteur multi terminologique Section 3 4 Mod lisation des terminologies cd Mod le sans titre 1 1 J Concepts UMLS CULchar LUI Cher TSicher SUt char S1TcHrer AUI char ASP REF char code_terminachar Les relations inter terminologies MRRE L codel char stypet char SABI char code2 char code char styped cher Hhell char SABZ Cher altemative lexicate char ype_relation cher donn es leo sM 8xiques cher Code char Cod _fermina ch
111. rapport un objectif vis par plusieurs experts est bien plus juste mais est tr s chronophage 6 3 Diff rentes m thodes Au cours de cette th se nous avons d velopp trois m thodes la m thode de l algortihme du sac de mots le dictionnaire de termes et le dictionnaire de consti tuants Deux de ces m thodes ont t valu es la troisi me tant dans l tat actuel tr s proches en terme de r sultats ceux de l algorithme du sac de mots L utilisation pr f rentielle de la lemmatisation ou de la d suffixation n a pas t d montr e ce choix d pendant de l objectif atteindre Concernant l apport d une approche multi terminologique par rapport une ap proche mono terminologique les r sultats ne sont pas tranch s Le rappel est meilleur pour une approche multi terminologique mais la pr cision en est impact e Les causes principales sont les transcodages et la difficult de d terminer parmis tous ces codes ceux qui sont plus importants Cela tant nous pensons que cette approche est bien plus int ressante du fait de la quantit plus importante d informations pouvant tre prise en compte pour l indexation de documents 6 4 Comparaison d autres outils notre connaissance F MTI est le premier outil multi terminologique pour le fran ais Il constitue une avanc compar a d autres outils Il est le seul outil pour le fran ais r aliser une indexation directe TAL en CIM1
112. recherche efficace Ma nuellement il serait tr s difficile de restructurer toutes les donn es d j pr sentent dans le dossier m dical En effet le dossier m dical informatis d un h pital de plus de 1 000 000 de patients comme Rouen peut contenir plus de 190 000 comptes ren 42 Pour plus d informations sur HON http www hon ch 17 Chapitre 1 Contexte Section 1 4 Conclusion dus d hospitalisation et autant de courriers lectroniques et de r sultats d examens Un outil d indexation automatique permettant l indexation du contenu des dossiers m dicaux avec un minimum d interventions humaines serait donc tr s utile Dans le cadre du financement de l h pital les m decins ont l obligation pour chaque s jour de leurs patients de coder leurs informations m dico conomiques diagnostics a l aide de la terminologie CIM10 et les actes avec la CCAM Les tudes de m decine n enseignent pas la mani re d indexer des documents l aide des terminologies standards Ce codage est complexe et s av re tr s fastidieux pour les m decins qui ont d j peu de temps pour traiter l ensemble de leurs patients Un outil d aide l indexation semi automatique pour le codage m dico conomique permettrait aux m decins de gagner un temps pr cieux pour une meilleure prise en charge de leurs patients 1 4 Conclusion Nous avons pu constater que depuis quelques ann es le Vidal le LERTIM et l quip
113. redondantes Bayesa Yates99 des informations h t rog nes diff rents formats supports langues L Internet est devenu une source majeure d informations scientifiques et m dicales Schatz97 pour laquelle tous les inconv nients cit s ci dessus sont inacceptables dans le domaine de la sant En r action depuis quelques temps de nombreuses personnes se penchent sur ce monde anarchique pour l organiser conscientes que seuls des outils automatiques de recherche peuvent suivre ce rythme de d veloppement Depuis pr s de 7 ans des logiciels lt robots gt parcourent le r seau de serveurs web pour rep rer les pages et en extraire l information afin de constituer des bases de donn es Pour le professionnel de sant trouver l information ad quate sur Internet n est pas une t che ais e Thirion98 Dans le domaine de la sant de nombreux travaux ont t entrepris afin de guider les utilisateurs dans leur recherche d information d o la multiplication des annuaires et des outils de recherche Flannery95 Mais les sites catalogues ou moteurs de recherches g n ralistes comme Google ou Yahoo France ne permettent pas d obtenir de mani re claire et organis e une pr sentation de l information disponible en m decine limitant ainsi son utilisation potentielle Ces serveurs contiennent pourtant un nombre impressionnant de sites m dicaux mais l organisation et la hi rarchie de leurs donn es ne sont pas adapt
114. repr sentatif de l ensemble des termes de la terminologie HPMA003 lt R paration de perte de substance par lambeau p dicul de grand omentum piploon en situation extraabdominale gt 85 des termes CCAM contiennent plus de 5 mots ce qui rend difficile leurs extractions partir d une phrase Ces termes n cessiteraient la cr ation de libell s d indexation de transducteurs ainsi que de r gles utilisant les termes des autres terminologies afin de recouper plusieurs l ments provenant de diff rents en droits du compte rendu Les co occurences et les liens Tothem CIM10 CCAM ainsi que les l ments de l ontologie Galen pourraient tre utilis s Rodrigues05 Perspectives L indexation l aide du dictionnaire de termes et de consti tuants des comptes rendus en CIM10 sera valu e D autres comptes rendus provenant de plusieurs h pitaux et d autres secteurs pourront tre utilis s afin de rendre les r sultats ind pendant du CHU de Rouen 4 2 3 valuation de l extraction de termes SNOMED pour les dossiers patients Nous avons par la suite souhait valuer notre outil dans le cadre de l extraction de termes SNOMED pour les comptes rendus l aide de l algorithme du sac de mots Pour ce faire les performances du F MTI ont t compar es celle d un outil com mercial canadien SnoCode Pereira08a voir section 2 5 3 2 seul outil d indexation automatique pour la SNOMED 3 5 qui notre conn
115. rie bact ries et synonymes Le format de ce dictionnaire est inspir du format DELA Forme TextuellePossibleDuTerme Libell Du Terme InformationsDivers L application de ce dictionnaire se fait via l outil INTEX Silberztein93 pour la recherche de termes d indexation des ressources Web Nous avons voulu r appliquer cette m thode qui s est r v l e tre efficace dans x 14 L algorithme cherche d abord les termes couvrant n mots puis n 1 mots puis n 2 mots etc chaque it ration si un terme est trouv ses mots sont limin s du sac de mots Le mot lt asthma tique gt est ainsi limin apr s l obtention du terme lt enfant de 5 ans asthmatique gt aux it rations suivantes il est ainsi impossible d obtenir le terme lt adulte asthmatique gt 98 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point F MTI pour nos cing terminologies Malheureusement la constitution d un diction naire est tr s fastidieuse r aliser la main La cr ation du dictionnaire DELA du th saurus MeSH 22 995 termes dans sa version 2005 a constitu une part tr s im portante de la th se d A N v ol N v ol05a Il nous a donc sembl tr s important de rendre la r alisation de ce genre de dictionnaire la plus automatique possible pour les terminologies SNOMED Internationale environ 108 000 termes CISMeF 25 000 termes dans sa version 2007 CIM10 32 000 ter
116. s des ressources destin es aux patients type de ressources lt patient gt L quipe CISMeF a cr en fran ais une liste de 531 synonymes patients rattach s aux termes MeSH 431 termes MeSH sont impliqu s exemple tabagisme pas sif gt est un synonyme patient du terme MeSH lt pollution fum e tabac gt Ces syno nymes permettent de traduire au sein du catalogue une requ te en langage patient en termes MeSH ce qui permet d am liorer la recherche d information Plovnick04 MedlinePlus est un site en anglais destination des patients et du grand public mis en place par la NLM L quipe MedlinePlus a cr en anglais 698 sujets de sant afin de cat goriser leurs ressources Plus tard afin de rendre le site int rop rable avec d autres catalogues ces termes ont t reli s 1 ou n termes MeSH 1130 en tout exemple lt health topic AIDS est li au mot cl MeSH Acquired Immunodefi ciency Syndrome and HIV infections gt Ces termes patients ont t d velopp s ind pendament en frangais et en anglais par les quipes CISMeF et MEDLINEplus Grace a la traduction frangaise du MeSH r alis e par l INSERM les liens entre termes MeSH fran ais et anglais sont d j disponibles Les efforts pour enrichir le MeSH avec des termes patient en frangais synonymes patient de CISMeF et en anglais MEDLINEPIus topics a conduit la cr ation de liens s mantiques entre les termes patients et les termes
117. s d indexation diff rents pour 19 155 codes et 31 222 libell s l origine 3 6 Conversions des fichiers Les documents trait s par F MTT sont de formats diff rents Les comptes rendus au CHU de Rouen sont r dig s l aide du logiciel Microsoft Word Ces fichiers sont au format lt doc gt Les RCP sont envoy es par AFSSAPS au VIDAL au format lt pdf gt partir de fichiers Word Il est pr vu dans le futur de les envoyer au format XML Enfin pour les ressources Web int gr es CISMeF le contenu du site qui peut tre obtenu partir de l URL peut tre de multiple formats HTML PDF PPT etc Le choix d un format commun et facile traiter par un programme informatique s est port sur le format texte lt txt gt Afin de convertir de multiples formats en fichier texte il existe diff rents outils tels que pdftotxt un programme Microsoft Word de conversion des fichiers word en fichier texte Les fichiers XML sont facilement transformables en texte En revanche il n existe aucun outil de ce style permettant de convertir les fichiers lt ppt gt ou les lt pdf gt prot g s 3 7 Les unit s d indexation Comme explicit section 2 5 3 2 certains outils prennent en compte des groupes nominaux Ces groupes nominaux peuvent tre extraits gr ce l outil SYNTEX 6 4 Cr e par verypdf com qui con oit des logiciels autour de l exploitation des PDF T l chargement accessible ici http
118. s manuellement par les in dexeurs de l quipe scientifique du Vidal avec les quatre anciens th sauri du Vidal Ces RCP taient au format PDF il a donc fallu les convertir en texte gr ce au pro gramme pdftotxt Il a fallu r aliser la table de transcodage ancien thesaurus TUV Nous avons cr celle ci en croisant les informations issues de diff rentes bases de donn es du Vidal ainsi qu en ajoutant les diff rents l ments qui pouvaient tre manquants Le TUV n tant pas termin cette table est strictement limit e aux termes de r f rences TUV existant qui constituent l ensemble des termes d indexation possibles les concepts l mentaires n tant pas utilis s pour l indexation Elle contient 7 834 correspon dances entre les termes des quatre anciens thesaurus et les termes de r f rence du TUV En transposant l indexation des anciens thesaurus pour chaque RCP en TUV nous obtenons un corpus de 5 191 RCP index s en TUV avec leur type d indexation correspondant au thesaurus d origine contre indications indications effets secon daires ou precautions d emploi 4 2 5 3 Mesures d valuation Nous avons appliqu le dictionnaire de terme pour le TUV cr a la section 3 7 3 sur ce corpus Nous avons aussi appliqu les transducteurs pour identifier les n gations voir section 3 9 1 De plus nous avons appliqu un patron d extraction NOOJ pour identifier les rubriques du RCP et leurs localisations afin
119. sac de mots issus de la phrase et ceux issus des termes 92 Algorithme du sac de mots 93 Exemple d indexation par l algorithme du sac de mots d une phrase extraite d un compte rendu d hospitalisation 97 Exemple de transducteur morphologique r alis avec le logiciel NooJ pour le terme diminution des facteurs de coagulation gt 100 Transducteur g n rique 3 lemmes 101 Constitution automatique des transducteurs 102 Algorithme de g n ration de variantes flexionnelles 104 Transducteur permettant d identifier les termes associ s un verbe MO alate Pla aed E Rae Ok OS ee a ae ere g 108 Transducteur permettant d identifier les termes associ s a des expres sions n gatives ant rieures 109 Transducteur permettant d identifier les termes associ s des expres sions n gatives post rieures 109 Compl ment d indexation apport par le transcodage 111 Quelques r gles de d suffixation pour l algorithme CISMeF 115 Quelques r gles de d suffixation pour l algorithme de Carry 116 Quelques r gles de d suffixation pour le FrenchStemmer de Lucene 117 Protocole d valution des trois m thode de d suffixation 118 R sultats de l valuation des trois algorithmes pour les mots du TUV par rapport au dictionnaire de r f rence
120. sentes dans le diction naire de termes pour le TUV Ces variantes pourraient tre retrouv es par une autre m thode que la m thode de l algorithme du sac de mots De nombreuses erreurs sont li es la conversion des documents PDF en texte avec des probl mes de retour la ligne et ainsi de non reconnaissance de certains termes La restitution des titres de rubrique est parfois mauvaise ce qui entraine une mauvaise affiliation des rubriques Les tableaux ne sont pas restitu s alors qu ils peuvent contenir des termes a indexer Perspectives Afin d am liorer les r sultats nous envisageons d int grer toutes les r gles d indexation suivantes liens contexte d application pour compl ter l indexation des liens dits contexte d application gt peuvent tre cr s automatiquement Par exemple une contre indication peut avoir comme contexte une indication Ceci peut tre trait l aide de transducteurs traduisant les liens existants exemple lt ne pas lt PE gt en cas de lt INDIC gt gt Ceci permettra de faire la distinction 139 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 3 Conclusion entre plusieurs types lorsqu un terme est index dans une rubrique pouvant contenir des termes de types diff rents les fr quences pour les termes lt EII gt peuvent tre ajout es automatiquement l indexation Les expressions identifier peuvent tre ajout es au dicti
121. sera plus synth tique explicit e et exprim e en langage clair Le grand public privil gie la facilit d acc s en revanche le temps d acc s n est pas un point prioritaire Les patients privil gieront donc les portails les logiciels d di s tel que les sites CISMeF HON et Vidal grand public et les sites d associa tions Les tudiants s int ressent prioritairement aux documents didactiques tels que des cours ou des documents plus sp cialis s pour apprendre de nouvelles notions ou approfondir leurs connaissances Ils peuvent utiliser un acc s un peu plus sp cifique et donc un peu moins facile Le temps d acc s n est pas non plus une contrainte Ils privil gieront les documents lectroniques de cours les sites des universit s les sites d di s tels que CISMeF et l UMVF Darmoni03b Les praticiens quant eux assurent la prise en charge des patients Ils doivent maintenir leurs connaissances s informer des volutions m dicales dans le cadre de la formation continue et r pondre aux probl mes rencontr s dans leurs activit s pro fessionnelles Ces informations peuvent conditionner une prise de d cision ou une action particuliere vis a vis du patient Ils privil gient les logiciels sp cialis s les 8 En quelques ann es la consultation de sites Web consacr s la sant a explos Depuis sa cr ation en 2000 Doctissimo fr leader du secteur a vu son nombre de visiteurs doubl chaque ann e
122. ss s par cet acc s puisque sur 1 330 patients 10 se sont connect s leur dossier consultant essentiellement les donn es g n rales 23 des documents consult s les synth ses 19 et les comptes rendus de consultation 11 GIP DMP07 Le contenu des dossiers m dicaux est complexe cette ouverture un large public pose de nombreux probl mes Chaque acteur a des besoins sp cifiques voir section 2 2 4 une bonne compr hension des informations contenues dans le dossier du pa tient n cessite des connaissances m dicales pointues ce qui n est pas forc ment le cas pour les tudiants ou les patients Keselman07 Zeng Treitler07 Malheureusement la plupart de ces demandes restent sans r ponse Covell85 Ely05 Il y a donc un besoin important d informations auquel le dossier m dical ne r pond pas aujour d hui Un des moyens de se documenter est de poser des questions sur sa pathologie son m decin ou un coll gue m decin ce qui demande d y consacrer du temps de se d placer voir m me repr senter un certain co t Un autre moyen est de consulter les documentations existantes livres voire ce qui est aujourd hui tr s r pandu cher cher une information m dicale sur Internet Comme nous l avons vu dans la section 2 2 2 une quantit importante d informations existent sur Internet pour r pondre aux besoins En revanche le temps n cessaire une recherche peut s av rer long de plus trouver une informatio
123. suivi des soins de conna tre le parcours m dical de ce patient Autrefois tait utilis le carnet de sant petit livret papier permettant en 2 minutes de voir les principaux faits marquants du parcours de sant du patient Depuis le passage au dossier lectronique le m decin est contraint de 6 Pr sentation EMOIS2008 7 Agence des Syst mes d Information de Sant Partag s organisme charg de mettre en oeuvre le DMP Dossier M dical Personnel 147 Chapitre 5 Applications du F MTI Section 5 3 Indexation automatique de dossiers patients consulter tous les documents d crivant les s jours du patient ou la fiche de synth se de tous les s jours du patient quand elle existe Pour les patients ayant effectu plus de 5 s jours l h pital une consultation rapide devient impossible Lorsque le DMP permettra de stocker un dossier national pour un patient les donn es du dossier patient pourront tre tendues tous les tablissements o il aura s journ ce qui accro tra d autant le volume des dossiers Pour faciliter la gestion de ces informations un r sum automatique pourrait tre cr par F MTI Ce r sum contiendrait les principaux diagnostics en cours ou les plus r cents la m dication en cours les allergies quelques informations administra tives les ant c dents familiaux et les v nements pr vus voir figure 5 3 Fichier Edition Affichage Image Fe Parcours de soin Allergie
124. t appliqu l indexation CIM9 CM des documents cliniques L outil utilise des m thodes d apprentissage automatique SVM et k PPV et une m thode simple de mod les de correspondance De plus il utilise l outil NegEx Chapman01 Goldin03 qui permet de trouver les expressions n gatives NegEx a permis de g n rer un dictionnaire contenant toutes les expressions n gatives pos sibles pour tous les termes du metathesaurus Aronson07 Evalu dans le cadre d un concours TAL the Medical NLP Challenge sur un corpus statistiquement norma lis de 1 000 rapports de radiologie MTI a obtenu une F measure de 85 C est l outil de l quipe Szeged qui a obtenu les meilleurs resultats avec 89 1 de F measure 2 5 3 2 3 MedCKARe MedCKARe Medical Coding by Knowledge Acquisition and repr sentation est un outil d aide au codage d velopp par A Baneyx Baneyx06 dans le cadre du projet PERTOMed Cet outil permet d indexer des comptes rendus m dicaux en CIM10 Il extrait 337 expressions les plus couramment rencontr es par les pneumologues li es par des relations de transcodage 1 n la classification CIM10 Ces expressions sont mod lis es et reconnues l aide d une ontologie du domaine de la pneumologie Une expression peut tre d finie dans l ontologie par une combinaison de deux ou plusieurs concepts primitifs reli s entre eux par une ou plusieurs relations Le syst me utilise le dictionnaire Unitex et des pat
125. t r alis par A N v ol pour extraire le titre des ressources Web partir d une URL N v ol05a celui ci est repris dans nos travaux 3 7 2 Identification des paragraphes Conna tre pour une phrase les autres phrases appartenant au m me paragraphe permet de d finir non seulement l emplacement de la phrase dans le document mais aussi les l ments utiles l indexation En effet un paragraphe est constitu d un 88 Chapitre 3 Conception de l extracteur multi terminologique Section 3 7 Les unit s d indexation certain nombre de phrases reli es entre elles par une unit d information une m me th matique Un terme d une terminologie peut tre explicit tout au long d un m me paragraphe et ainsi tre extrait automatiquement d l ments provenant de plusieurs phrases l int rieur de celui ci Dans les fichiers XML un paragraphe tant contenu entre les balises lt p gt et lt p gt il est facile de l extraire Pour les fichiers textes un paragraphe se termine par un point suivi d un saut de ligne La difficult pour les fichiers textes provient des fichiers issus de conversion les paragraphes peuvent tre compl tement d sorganis s De fait nous avons d les reconstituer afin de les identifier parfaitement 3 7 3 Identification des phrases Des travaux existent sur le d coupage en phrase Pappa04 Parmis ces travaux Friburger00 pr sente un transducteur INTEX
126. tat correspondant une pathologie primaire Tous les termes de r f rences peuvent tre d compos s en un ou plusieurs tats et en 0 ou plusieurs compl ments exemple le terme de r f rence lt Dermatite ato pique s v re de l adulte traitement de deuxi me intention gt est constitu des termes l mentaires lt dermatite atopique gt tat lt adulte gt tat lt s v re gt compl ment et traitement de deuxi me intention gt compl ment Il existe aussi des relations entre les types s mantiques rattach s aux tats tel que est une complication de gt 44 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation Ce thesaurus est toujours en court de r alisation il comporte a ce jour tous les termes de r f rence et 1 000 termes l mentaires soit 11 980 termes 2 4 3 Codage de l information pour les dossiers patients 2 4 3 1 Le codage des dossiers par les professionnels de sant Les dossiers m dicaux papiers sont pass s progressivement un dossier lectronique du patient dans le d but des ann es 80 La loi du 31 juillet 1991 portant sur la r forme hospitali re a marqu un tour nant Le PMSI Programme de M dicalisation des Syst mes d Information impose alors aux tablissements de sant publics et priv s de mettre en oeuvre des syst mes d information 3t capable de recueillir les donn es concernant leur activit path
127. termes MeSH partir d un titre et d un r sum d article en recherchant les articles les plus proches dans la base MEDLINE Cette recherche s effectue sur la base des mots en commun en tenant compte de la longueur relative des r sum s Un score est attribu a chaque terme d pendant de sa fr quence et de sa pertinence Le module clustering permet de g n rer la proposition d indexation automa tique finale Tous les termes MeSH candidats extraits par les trois m thodes sont regroup s Les r gles d indexation MEDLINE sont appliqu es les termes sont alors pond r s selon la m thode d extraction d origine poids heuristique de 7 pour MM et 2 pour PRC les termes sont aussi pond r s selon la localisation du groupe nominal d origine poids sup rieur pour ceux du titre les termes PRC sont limin s s il n y a pas de terme MM plus g n ral Depuis 2007 MTI est capable d associer des mots cl s MeSH avec des qualificatifs gr ce aux travaux d A N v ol Neveol07 issue de l quipe CISMeF De plus un module de d sambiguisation utilise les co occurences entre les Journal Descriptor 6 et les termes MeSH Humphrey06 Une indexation sp cialis e pour les ressources existe en utilisant GeneRif N v ol07a L valuation de indexation produite par MTI sur le titre et le r sum par rapport une indexation manuelle sur 273 articles de l quipe Medline a montr une moyenne de 8 ter
128. termes apparte nant diff rents axes de la SNOMED lors de leur indexation Il n existe pas de r gles d indexation ce sujet Il est donc n cessaire d impl menter des r gles afin d indexer correctement les comptes rendus m dicaux Certains termes sont incorrectement retrouv s car l extraction par la m thode du sac de mots ne permet pas de respecter l ordre des mots Des am liorations doivent tre apport es dont l impl mentation de l analyse s mantique des phrases Le probl me des transcodages qui ne relient pas syst matiquement des concepts de sens strictement quivalent avec parfois des degr s de pr cision diff rents Les transcodages devront donc tre revus par la suite avec plus d attention par nos quipes afin d liminer les transcodages inad quats et ainsi faire diminuer le bruit g n r par F MTI Le probl me des redondances entre termes extraits les diagnostics et leurs sympt mes ou diff rentes formes du m me diagnostic ou bien encore la mani festation et la maladie initiale Les relations sympt me de gt et diagnostique de gt sont pr sents dans la SNOMED CT qui est reli e par des relations de sy nonymie la SNOMED 3 5 dans l UMLS car reli s aux m me concepts UMLS voir section 2 3 2 3 Un travail a t r alis par un doctorant de l quipe CISMeF Merabti08a pour transposer les relations sympt me de gt et lt diag nostique de gt de la SNOMED CT
129. termes propos s par l un ou l autre des indexeurs la mesure de Rolling accorde un poids suppl mentaire aux descripteurs t moignant d un consensus entre les deux indexeurs le taux de recouvrement permet d valuer le taux d accord entre deux listes La consistance est meilleure pour un vocabulaire contr l Berrios et al 2002 Il est galement possible d valuer la qualit de l indexation en comparant lin dexation produite par rapport une indexation produite par un indexeur expert prise comme r f rence ou gold standard gt Plusieurs mesures sont associ es la pr cision qui est le rapport du nombre de termes pertinents sur le nombre total de termes s lectionn s le rappel qui est le rapport du nombre de termes pertinents sur le nombre total de termes pertinents la F measure qui est la moyenne pond r e de la pr cision et du rappel vanRijsbergen79 Un param tre suppl mentaire a t introduit par D Na kache Nakache05 pour ajouter un poids suppl mentaire la pr cision ou au rappel selon la t che que l on veut valuer le silence pour valuer la proportion de termes n ayant pas t extraits faux n gatifs 58 Chapitre 2 Etat de l art Section 2 5 Aide l indexation le bruit pour valuer la proportion de termes erron s extraits par le syst me faux positifs la puret pour valuer la proportion d erreurs d indexation extraction d un terme erron
130. une formulation pr f r e et ventuellement des synonymes et des variantes lexicales Plusieurs types de termes y sont distingu s les termes de r f rence d crivant les propri t s d une sp cialit pharmaceutique Ils sont utilis s pour l indexation des RCP et constituent les anciens th sauri 8 252 termes pr f r s et 2 728 synonymes ou variantes lexicales soit 10 980 termes 28 Une sp cialit pharmaceutique est un m dicament qui a un nom commercial Une m me sp cialit pourra tre commercialis e ventuellement sous un ou plusieurs noms de marque Elle fait l objet d un enregistrement aupr s des autorit s de sant et est vendu un prix d termin par un laboratoire pharmaceutique Sous son m me nom de marque il peut exister diff rentes formes pharmaceutiques et diff rents conditionnements sp cifiques chacun faisant l objet d un enregistre ment sp cifique 29 DRC dictionnaire des r sultats de consultation de la SFMG Soci t Fran aise de M decine G n rale 30 Classification des Soins Primaires 43 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation ces termes de r f rence peuvent tre d compos s en termes l mentaires au nombre de 1 000 pour le moment voir figure 2 7 A TERMES de REFERENCE D tail composition Accident vasculaire c r bral chez le patient diab tique
131. utilis s d pendent de l objectif atteindre L objectif peut conditionner l usage des termes ainsi que leurs sens dans le langage d indexation Le langage peut tre orient selon l utilisateur Les terminologies que nous uti lisons sont tr s sp cialis es Quelques d clinaisons ont t explor es pour le grand public et les patients par l quipe CISMeF Darmoni02b De plus il peut aussi adopter le style du langage utilis dans les documents index s Le TUV plus que les autres terminologies poss de des libell s tir s direc tement des RCP des libell s se rapprochant du langage naturel contrairement par exemple la CCAM dont les libell s sont tr s format s pour exprimer l ensemble des conditions d un acte dans un seul terme 15 Moteur de recherche g n raliste accessible via http www google fr 28 Chapitre 2 tat de l art Section 2 3 D finition de l indexation et du codage 2 3 2 3 l ments de repr sentation Les informations m dicales sont exprim es par tout un chacun en langue natu relle et par crit en texte libre Nous nous int ressons ici la forme crite qui est le support des informations que nous traitons Contrairement au langage informatique le langage naturel est quivoque Tout n est pas exprim dans un texte forme implicite il existe plusieurs fa ons d ex primer la m me chose synonymies paraphrases ainsi que plusieurs interpr tations possible
132. www verypdf com download download htm 5 Accessible via le logiciel Microsoft Word 6 Un analyseur syntaxique automatique du fran ais Il permet d analyser les d pendances syn taxiques et ainsi d extraire des groupes verbaux nominaux et adjectivaux 87 Chapitre 3 Conception de l extracteur multi terminologique Section 3 7 Les unit s d indexation BourigaultO0 Il nous semblait important de garder toute la phrase les verbes pouvant tre une source d information utile et les termes MeSH pouvant tre extraits partir d informations contenues la fois dans le sujet et les compl ments d objets donc dans diff rents groupes d une m me phrase Par exemple pour la phrase lt L enfant a t trait de mani re pr ventive pour des convulsions f briles gt le terme TUV lt Convulsion f brile chez l enfant traitement pr ventif de la gt ne pourra tre extrait qu en consid rant l ensemble de la phrase comme unit d indexation Nous avons ainsi choisi comme unit d indexation la phrase Pour chaque document indexer nous avons identifi les phrases ainsi que leurs contextes c est a dire la rubrique et le paragraphe auxquels elles appartiennent 3 7 1 Identification des rubriques Connaitre pour une phrase la rubrique auquelle elle appartient permet de d finir emplacement de la phrase dans le document et galement le contexte d indexation et certains l ments qui pourront tre u
133. 0 Il constitue une toute premi re tentative d indexation automatique pour la CCAM Il est le second outil pour l indexation en SNOMED 3 5 apr s SnoCode un outil commercial Il est le seul outil int grer la terminologie TUV Il est le seul outil s int resser l indexation automatique des RCP La comparaison d autres outils a t discut e F MTT compar aux outils SnoCode et MAIF donne des r sultats satisfaisants Par rapport d autres outils en fran ais comme CIREA ou MEDCKARE il ap porte une r elle plus value en permettant une indexation descriptive sur l ensemble de la CIM10 L outil le plus approchant pour l anglais MTI prend en compte un plus grand nombre de terminologies plus de 100 isues de l UMLS alors qu il n en existe que 10 disponibles pour le fran ais et comprend des m thodes la fois statistiques et TAL En mati re de performance MTI traite 4000 articles titre r sum chaque nuit l heure actuelle F MTI permet de traiter 2 000 comptes rendus d hopitalisation en 1 heure sur un serveur 4 coeurs ce qui laisse entrevoir d autres applications in 164 Chapitre 6 Discussion Section 6 5 Perspectives dustrielles Tout comme ces outils F MTI va tre int gr dans un logiciel d aide a l indexa tion 6 5 Perspectives 6 5 1 Am lioration de l outil Certaines am liorations sont dors et d j envisag es am lioration des transco
134. 1 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 2 Acc s contextuel la connaissance partir du dossier patient Les requ tes adress es au site sont personnalis es et contextuelles La requ te re groupe deux informations majeures le diagnostic cod en CIM10 ou l acte cod en CCAM n cessite un transcodage CIM10 gt MeSH et CCAM gt MeSH pour lesquels des informations suppl mentaires sont recherch es Le type de l utilisateur est connu gr ce son login Ainsi le m decin sera dirig vers des ressources de type recomman dations l tudiant en m decine vers des ressources p dagogiques et les patients vers des ressources sp cifiques Une liste de documents appropri s est ainsi fournie par CISMeF partir de la liste existante des codes CIM 10 et codes CCAM pr sents dans la fiche des codages du compte rendu d hospitalisation et dans la fiche de synth se du dossier patient Le deuxi me bouton cr un acc s vers d autres sites sp cialis s dans la recherche en sant Ceux ci sont cat goris s selon le type de connaissances recherch es recom mandations mat riel p dagogique sp cifique patient bases de donn es bibliogra phiques sant publique essais cliniques maladies rares outils de recherche en sant et outils de recherche g n ralistes Ils sont aussi class s selon la langue sites fran ais et anglais voir figure 12 Annex
135. 12 TABLE DES FIGURES 2 21 2 22 2 23 2 24 2 25 2 26 3 1 3 2 3 3 3 4 3 9 3 6 3 7 3 8 3 9 3 10 3 11 3 12 3 13 3 14 3 15 3 16 3 17 3 18 3 19 3 20 4 1 4 2 4 3 4 4 4 5 Exemple d analyse morphologique suivie d une analyse syntaxique 63 L indexation par les m thodes de TAL 64 Exemple de grammaire syntaxique pour le terme lt date gt 65 Fonctionnement de l outil MAIF 68 Pr cision et rappel des syst mes francophones aux rangs fixes 1 4 7 10 et au seuil adaptatif lt n a tee eee UNS EN RER SENS ESS E 69 Fonctionnement de l outil MTI 70 Principe de fonctionnement de F MTT 78 Diagramme de classes repr sentant la structure du MeSH au forma lisme WN ew xs soe oe bod et SENS Side ss ARS RU EE 80 Diagramme de classes repr sentant la structure du TUV au formalisme UMD Sk Oe ee Me ee Oe ER ee Oe BOG BY 81 Diagramme de classes repr sentant le mod le g n ral au formalisme UME GS Do eh a BO aad eA ORS oe ee 7 83 Transducteur de phrases r alis avec le logiciel NooJ 90 Sous graphe des exceptions r alis avec le logiciel NooJ 90 Sous graphe des sigles r alis avec le logiciel NooJ 90 Sous graphe des titres de civilit r alis avec le logiciel NooJ 91 Sous graphe des abr viations r alis avec le logiciel NooJ 91 Comparaison du
136. 2 Chapitre 2 tat de l art Section 2 2 Fondements de la recherche d information et des bases de connaissances ainsi depuis le d but des ann es 90 un d veloppement mondial prodigieux avec un bond de 210 depuis les ann es 2000 Plus de 20 de la population mondiale soit 1 5 milliards de personnes utilisent Internet La vitalit du r seau s exprime par une croissance soutenue de l ordre de 7 millions de pages cr es par jour l ensemble a d pass les 10 milliards en 20074 Le fran ais est la 5 me langue employ e par les utilisateurs derri re l anglais le chinois l espagnol et le japonais Une des faiblesses d Internet est que cet espace ouvert o tout utilisateur devient consommateur et producteur d information s est d velopp de mani re anarchique d o une quantit norme de ressources difficile valuer En effet la majeure partie des documents ne sont pas r pertori s par les moteurs de recherche g n ralistes probl me de format l absence d adresse connue Ce Web lt invi sible gt repr sente plus de 99 du Web Bergman01 l inexistance d un index pour le r f rencement des informations existantes ou leurs localisations des informations instables susceptibles de dispara tre avec le temps tout utilisateur pouvant tre producteur d information celle ci peut tre de mauvaise qualit puisqu aucun contr le n est r alis des informations
137. 2004 Spackman K Campbell K C t R SNOMED RT a reference terminology for health care AMIA Annu Symp Proc 1997 640 4 Sundvall E Nystrom M Forss M Chen R Peterson H Ahlfeldt H Graphical Overview and Navigation of Electro nic Health Records in a Prototyping Environmen Using Google Earth and openEHR Archetypes Stud Health Technol Inform 2007 1043 7 Thirion B Darmoni S Les sites m dicaux francophones sur Internet le devoir d ing rence des bibliotheques Bulletin des Biblioth ques de France 1998 42 5 Thirion B Douy re M Soualmia L Dahamna B Leroy J Darmoni S Metadata element sets in the CISMeF Quality Controlled Health Gateway International Conference on Du blin Core and Metadata Applications 2004 Thirion B Pereira S N v ol A Dahamna B Darmoni S French MeSH Browser a cross language tool to access MED LINE PubMed AMIA Annu Symp Proc 2007 1132 Tse T Soergel D Exploring medical expressions used by consu mers and the media An emerging view of consumer health vocabularies AMIA Annu Symp Proc 2003 674 98 221 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE vanDijk90 vanRijsbergen79 Vapnik95 Voorhees03 Wall01 Weed68 Wehrli88 WHO Wilbur98 Xu98 Yang94 Zeng Treitler07 Zeng99 Zipf49 Zweigenbaum89 Zweigenbaum90 van Dijk T Kintsch W Strategies of Discourse Comprehension New York Ac
138. 2006 180 4 Del Fiol G Haug P Use of Classification Models Based on Usage Data for the Selection of Infobutton Resources AMIA Annu Symp Proc 2007 171 5 210 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Deyo94 Diosan08 Dister97 D jean05 Dor 92 Dore95 Douy re04 Dufour05 Dutoit00 Elhadad07 Elisabeth02 Elkin05 Deyo R Taylor V Diehr P Conrad D Cherkin D Ciol M Kreuter W Analysis of automated administrative and survey databases to study patterns and outcomes of care Spine 1994 19 20835 20915 Diosan L Rogozan A P cuchet J Apports de traitements morphologiques et syntaxiques pour l alignement des d finitions par une classification SVM soumis ECG 2008 2008 Dister A Probl matique des fins de phrase en traitement auo matique du fran ais qui appartient la ponctuation Actes du colloque international et interdisciplinaire de Li ge 1997 D jean H Gaussier E Renders J Sadat F Automatic pro cessing of multilingual medical terminology applications to thesaurus enrichment and cross language retrieval Artif Intell Med 2005 33 111 124 Dor L Cavazza M Zweigenbaum P J F B Analyse prag matique pour la compr hension de comptes rendus d hospitali sation Informatique et Sant Paris Springer Verlag France 1992 5 139 152 Dore L Lavril M Jean F Degoulet P An object oriented computer b
139. 3 2 2 Il consiste a utiliser la totalit du r seau form par les diff rentes terminologies consid r es et non pas consid rer s par ment les terminologies Comme nous l avons d crit pr c demment il existe des relations entres ces terminologies Ces relations sont d finies soit l int rieur du M tath saurus de l UMLS soit cr es pour des be soins pr cis par diff rents organismes Nous nous sommes int ress s plus particuli rement aux relations d quivalence pure entre ces terminologies Puisque toutes ces terminologies concernent le meme do maine le domaine m dical certains concepts comme par exemple lt asthme gt peuvent se retrouver dans plusieurs d entre elles I existe donc entre les diff rents termes ex primant le concept lt asthme gt au sein de ces diff rentes terminologies des relations d quivalences appell es transcodages lt mapping gt en anglais Les termes li s par une relation de transcodage peuvent tre consid r s comme des TT Chapitre 3 Conception de l extracteur multi terminologique Section 3 3 Principe de fonctionnement synonymes ou des variantes lexicales Ainsi en prenant en compte plusieurs termino logies nous pouvons r pertorier un plus grand nombre de formes textuelles possibles pour un terme rendant ainsi plus ais e son identification dans un texte L outil MTI utilise ce principe en mettant en oeuvre l ensemble du m tathesaurus de l UMLS soit
140. 4 305 000 personnes ont visit ce site au cours du mois de d cembre 2006 9 WRAPIN Worldwide online Reliable Advice to Patients and Individuals http www wrapin org 10 Site du projet accessible ici http www umvf prd fr 25 Chapitre 2 tat de l art Section 2 3 D finition de l indexation et du codage sites sp cialis s m me en anglais comme Medline ou la National Guideline Clea ring House des outils qui vont les aider dans leur exercice professionnel tel que des logiciels d aide la d cision par exemple le logiciel d aide la prescription Vi dal Expert Le temps d acc s l est important car les praticiens peuvent avoir besoin d informations pour une prise de d cision imm diate devant un patient ou cours terme avant une op ration par exemple En outre les praticiens d clarent ne disposer que de 2 minutes en moyenne Alper01 pour r aliser des recherches Les recherches sur Internet tant assez longues elles sont souvent effectu es entre deux rendez vous ou en fin de journ es 2 3 D finition de l indexation et du codage 2 3 1 Principe de l indexation Nous avons pu constater que l indexation est utilis e pour la construction de bases de connaissances et pour la recherche d information L indexation est une repr sentation ext rieure forc ment r ductrice du contenu des textes L information contenue est alors transf r e vers un autre espace de repr sentation
141. 5 9 R sultats de la comparaison entre le trancodage effectu par l expert et celui produit par F MTI 5 8 3 Discussion Les objectifs de ce travail taient d tudier la possibilit de g n rer un transcodage automatique entres deux terminologies Cette tude a montr qu il tait difficile de produire un transcodage de mani re manuelle ou automatique entres deux termino logies d di es des t ches diff rentes Cette difficult est due une faible ad quation s mantique entre la terminologie CCAM et le MeSH et au fait que l algorithme du sac de mot ait t d velopp pour une indexation descriptive et non dans un but de classification d actes techniques Les transcodages manuels et automatiques ont montr des diff rences Les m thodes automatiques peuvent g n rer plus de termes que l expert L algorithme du sac de mots est une m thode purement lexicale et ne permet pas de d duire des l ments implicites alors que l expert en est capable Au niveau de l assignation des m tatermes la m thode des transcodages a donn les meilleurs r sultats avec des taux de pr cision et de rappel de l ordre de 50 et 60 pour la CIM10 et de 30 et 40 pour la CCAM La m thode du sac de mots est purement lexicale et est en pratique la plus int ressante car elle ne n cessite aucune indexation manuelle En revanche elle montre de moins bons r sultats Voici list es ci dessous quelques constations pouvant exp
142. 7 2 3 D veloppement 42462444 a 171 7 2 4 Valorisation industrielle o 00a eae oa 175 7 2 5 Perspectives ho aa 644 44444 des 444 175 7 3 Recherche par sp cialit m dicale 176 7 4 Recherche contextuelle dans VidalRecos 179 7 5 Recherche translangue 42 ve deu a m bed eu heat 180 7 6 Discussion Conclusion 242 4 4 44 564248 4444 444444 183 8 Conclusion g n rale 185 A Annexes 187 Al UMES v soe ek ek Se ee ape oS Re ee oh ee RO ES 187 A 2 Mod les unitaires pour la base de donn es multi terminologique 188 A 2 1 Mod le CISMER 444444448 24 en DORKS REDRESS 188 A 2 2 Mod le TUV Le SV 6 EE BRE Ee ee 190 A 2 3 Mod le de la CIM10 2444405 4 eee RRO ee ue mu 192 A 2 4 Mod le de la CCAM 194 A 2 5 Mod le SNOMED 3 5 196 A 3 Mod le g n ral a lt d hw bee WE EME ee eee eS 197 A 4 CIM10 M tatermes MeSH 200 A 5 D monstration aa Ge Les a eR Pw ae ea ee ee le 201 Publications personnelles 224 A 6 Publications internationales comit de lecture 224 A 7 Publications nationales comit de lecture 224 A 8 Posters nationaux et internationaux 225 A 9 Autres communications lt 4 64544444 D we wee ew dS 225 PU Rapports c sieas des dd ee moi a E rie x 226 A 11 Valorisation a eras AY NS SN Hw es HR we ce 226 A 12 Non encore publi
143. Ama famille Remerciements Je tiens remercier ici toutes les personnes qui ont rendu possible la r alisation de cette these Tout d abord mes encadrants qui ont form un trio de choc tel les trois mous quetaires Porthos Athos et Aramis encadrant le petit d Artagnan Le professeur Stefan Darmoni incarnant le dynamisme et l humour qui a base de coups a permis que cette these avance Le docteur Michel Joubert repr sentant la sagesse qui a pos les limites et a pouss a la r flexion Et le docteur Elisabeth Serrot pour ses analyses m ticuleuses Puis les diff rentes quipes pour leur aide leur soutient et leur amiti L quipe CISMeF Josette Ga tan Catherine Benoit Saoussen Taieb Yvan et Badisse L quipe scientifique du Vidal Mathilde Josiane Sophie Francine Olivier Mi chelle Blandine Nicolas Ghislaine Gismonde Jean Fran ois Ainsi que les rois de la num risation et accessoirement de la relecture Laurent Thierry Cedric Remy Ulrich et Joachim Et les personnes externes Antoine Buemi Max Silberztein Philippe Massari Paul Avillach Marius Fieschi Ga lle Lortal et Lina Soualmia Je remercie galement les laboratoires LERTIM et LITIS pour m avoir accueillie Ainsi que la soci t Vidal et son directeur Vincent Bouvier pour son engagement dans ce projet Enfin bien s r ma famille pour son soutient la relecture de ma soeur H l ne et les sourires du nouveau membre de la
144. CARDIO LENEGRE 55148 70 doc Microsoft Word f 3 lt PR nn oe indexation y xl OSHS SRY seco e ennn a Z2 Normal gt Times New Roman ai A F MTI H pital Charles Nicolle 1 rue de Cemort 76031 Roum Cedex a DR Secr buriat Unit LAUBRY amp 0732009117 Cardiologie aariat Usd PETTE Fax 02 32 88 02 23 ecr bariat Corsubtation amp 02 3288 5625 Fax 02 32 88 88 49 Secr tariat Cathataxisne 0222608283 TETE mn Emal Scra int CrdoloieBeiu vouaf Rouen le 10 09 2007 lt Libell _Titte_civilit s Pr nonw Nom hdresse_l hdresse_ 29 Adresse 39 4Code_postals Libelle_Commmmes COMPTE RENDU D HOSPITALISATION Dime N e le Date d entr e N dossier Date de sortie M decin Traitant Docteur XXX Cardiologue Motif d hospitalisation Dyspn e ANTECEDENTS ET HISTOIRE DE LA MALADIE Traitement en cous CORDARONE PREVISCAN AMLOR FA permanente Chol cystectomie en 1976 Occlusion sur ventration en 1995 et occhsionen 2002 Pas d allergie ypertension art rielle Patiente adress e par son m decin traitant le 49 2007 pour une dyspn e voluant depui 24 H A moter l absence de douleur s lection 110 Hypertension essentielle primitive bd Affichage du r sultat de l indexation Page 1 Sec 2 ti A i7em U35 Col ENR REY EXT RFP Francais Fr ij 2 FIGURE 5 2 Interface Word avec int grationd du bouton F MTI commandations de codages de
145. Contexte Section 1 3 Contexte scientifique charge afin de procurer l h pital les financements ad quats tarification l activit T2A d valuer la qualit des soins l int rieur de l tablissement de contr ler son activit et de fournir des donn es pour la veille sanitaire et les tudes pid miologiques Les donn es recuillies sont cod es le codage est tr s semblable l indexation si ce n est que les mots cl s assign s un docu ment sont exprim s sous forme de codes l aide de terminologies sp cifiques la CIM10 pour les diagnostics et la CCAM pour les actes Ce codage est appel codage m dico conomique l acc s par le patient son dossier de sant par Internet o qu il se trouve lui permet de prendre en charge lui m me certains l ments concernant sa sant par exemple messages d alerte automatiques pour les vaccinations et examens et agenda des consultations Les activit s de recherche du laboratoire LERTIM consistent a rendre possible ces diff rentes tache concernant le dossier m dical informatis L activit du LERTIM concerne entre autres la biostatistique la repr sentation des connaissances l aide la d cision les syst mes d information m dicaux et de sant les syst mes d information pour la formation distance et le soutien m thodologique en recherche clinique 1 3 3 2 Les travaux du LERTIM L quipe du LERTIM a men des tra
146. Cot R From SNOP to SNOMED A Challenge for the Medi cal Record Librarian Bulletin of the Canadian Association of Medical Record Librarians December 1972 5 nol Cot R Rothwell D Patolay J Beckett R Brochu L eds The Systematized Nomenclature of Human and Veterinary Me dicine SNOMED International Technical report College of American Pathologists 1993 Cuggia M Darmoni S Garcelon N Soualmia L Bourde A Doc UMVF two search tools to provide quality controlled tea ching resources in French to students and teachers Int J Med Inform 2007 76 Number 5 6 357 362 209 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Cutting04 Darmoni98 Darmoni02a Darmoni02b Darmoni03a Darmoni03b Darmoni07 Darmoni08 Deerwester90 Degoulet98 Dekkers03 Del Fiol06 Del Fiol07 Cutting D Hatcher E Gospodnetic O Lucene in Action Manning Publications 2004 Darmoni S Leroux V Daigne M B T Santamaria P Du vaux C Crit res de qualit de l information de sant sur lIn ternet Sant et R seaux Informatiques Informatique et Sant Springer Verlag France 1998 162 74 Darmoni S Thirion B Platel S Douy re M Mourouga P Leroy J CISMeF patient a French counterpart to MEDLINE plus J Med Libr Assoc 2002 90 248 253 Darmoni S Thirion B Platel S Douyere M Mourouga P Leroy J CISMeF patient A French counterpart to MEDLINE
147. ERGEDLUI CHANGE DELETEDCUI CHANGE DELETEDLUI CHANGE DELETEDSUI MRCUI 187 Chapitre A Annexes Section A 2 Mod les unitaires pour la base de donn es multi terminologique Les index MRXW BAQ MRXW DAN MRXW DUT MRX ENG MRXW FIN MRXW FRE MRXW GER MRXW HEB MRXW HUN MRXW ITA MRXW NOR MRXW POR MRXW RUS MRXW SPA MRXW SWE MRXNW ENG MRXNS ENG CUII Unique identifier of first concept AUII Unique identifier of first atom STYPE1 The name of the column in MRCONSO RRF that contains the identifier used for the first concept or first atom in source ofthe relationship REL Relationship of second concept or atom to first concept or atom CUI2 Unique identifier of second concept AUI Unique identifier of second atom STYPE2 The name of the column in MRCONSO RRF that contains the identifier used for the second concept or second atom in the source of the relationship RELA Additional more specific relationship label optional RUI Unique identifier of relationship SRUI Source asserted relationship identifier SAB Abbreviated source name of the source of relationship SL Source of relationship labels RG Relationship group DIR Source asserted directionality flag indicates that this is the direction of the relationship in its source SUPPRESS Suppressible flag Values O Y E or N CVF Content View Flag Exemple C0002372 40022284 AUT RB C0002371140022279 AUTR01983351 MSH MSH N FIGURE A 2 Description de
148. L indexation descriptive de l int gralit du contenu du dossier patient des images incluses avec des terminologies adapt es au contenu permettrait de structurer l en semble des informations L id e principale est de structurer a posteriori des dos siers patients non structur s pour l indexation de l ensemble des comptes rendus du CHU de Rouen F MTI mettrait environ 4 jours L indexation permettrait aussi de mod liser les liens s mantiques entres les diff rents l ments du dossier patient Le codage m dico conomique produit pour le moment est tr s nettement insuffisant La faisabilit d une structuration compl te reste discuter car aucune terminologie ne permet encore de prendre en compte l ensemble de ces donn es Nachimuthu07 Campbell97 En incluant F MTI les travaux de F Florea sur l indexation des images Florea07a et en int grant F MTI l ensemble des terminologies m dicales LOINC MedDRA t WhoArt etc une part importante des donn es d un dos sier patient pourrait tre index e L indexation produite par F MTI pourrait tre utilis e comme suit pour la r alisation des diff rentes t ches une pr sentation claire du dossier m dical du patient pour les m decins et les patients voir section 6 3 aider le m decin prendre des d cisions en am liorant les outils d aide la d cision contr ler l activit La coh rence des donn es peut tre contr l e
149. La similarit g n r e est une valeur entre 0 et 1 La similarit pour deux termes d arborescences diff rentes est gale 0 aucun anc tre en commun 49 Outil proposant une indexation l indexeur humain qui doit alors la r viser 59 Chapitre 2 Etat de l art Section 2 5 Aide l indexation 1 x 2 max Sim m m 2 max Sim m m SSL XC Em 2X max log p m Sachant que Sim m m log p m log p m FIGURE 2 19 Mesure de similarit L indexation peut aussi tre valu e sur diff rents niveaux de pr cision ou d im portance ceci influence les niveaux de bruit et de silence obtenus Le niveau de pr cision consiste d finir un niveau dans l arborescence auquel tous les termes vont tre report s Par exemple il peut tre report l anc tre de niveau 2 27 niveau de la terminologie apr s la racine puis de niveau 3 pour valuer une indexation plus pr cise Nous retrouvons ce genre d tude dans Neveol05 Le niveau d importance consiste d finir un seuil ou prendre en compte un type de terme particulier Un seuil peut tre d fini lorsque l indexation est rang e on peut alors d cider de ne prendre en compte que les 5 premiers r sultats lorsqu il y a ou non un score attribu ou ceux qui ont un score sup rieur au seuil lorsqu il y a un score La D mesure de Nakache Nakache05 permet aussi d valuer la capacit pour un outil
150. P Chapitre 1 Contexte Section 1 3 Contexte scientifique dations de bonnes pratiques pour les m decins Le portail PIH Portail Institutionnel du Handicap RNTS 2005 cr en collaboration notamment avec la soci t TE mis PME sp cialiste du text mining permet de rechercher des informations sur le handicap Le portail KISMeF est n d une collaboration avec l Institut National du cancer INCA pour rechercher des informations autour de la sp cialit Canc rologie pour les patients 2005 2007 Un portail pour l industrie pharmaceutique a aussi t r alis avec le laboratoire Lilly Dans le m me cadre on peut citer la cr ation du moteur de recherche Doc UMVF Cuggia07 2002 2005 avec l UMVF Universit M dicale Virtuelle Francophone 7 L extension de la recherche dans CISMeF vers d autres moteurs de recherche en sant fran ais et anglophones a aussi d bouch sur un partenariat avec la soci t Vidal pour l extension de recherches dans le projet Vidal Recos Ce partenariat de longue date avec Vidal permet galement l quipe CISMeF de b n ficier d un acc s certaines informations incluses dans les bases de donn es du Vidal 1 3 1 4 Les besoins Apr s une premi re avanc e dans le domaine de l indexation automatique MeSH avec les travaux d Aur lie N v ol l quipe CISMeF a voulu poursuivre ses efforts dans ce domaine Ceci a conduit indexer une partie des ressources celles cons
151. SNOMED 3 59 devrait tre mise en place prochainement Cette indexation est fastidieuse pour les m decins et le temps n cessaire n est d s lors pas consacr traiter le patient Une in dexation descriptive de l ensemble des informations du dossier des patients pourraient aussi permettre un meilleur suivi des soins Les masses d informations traiter sont tr s importantes Pour exemple l h pital de Rouen r pertorie 1 080 384 patients et 182 808 comptes rendus d hospitalisation en 2005 Il serait donc utile pour les m decins de disposer d outils d aide l indexation pour l indexation de leurs dos siers m dicaux 0 3 Objectifs L objectif que nous nous sommes fix s est de cr er un outil g n rique destin lin dexation automatique de documents Celui ci a t developp afin de permettre l in dexation des dossiers patients en CIM10 CCAM et SNOMED 3 5 des sites m dicaux en MeSH et des RCP en TUV Ce travail explore diff rentes approches pour analyser le contenu des documents et pour les exploiter Il s agit principalement de m thodes de Traitement Automa tique du Langage Naturel TALN Nous nous sommes galement int ress s aux moyens de faciliter l acc s aux connais sances contenues dans les bases documentaires sur Internet et dans les dossiers pa tients 0 4 Organisation du m moire La r daction des diff rents chapitres suit le raisonnement qui a t entrepris dans la r alisation
152. TI via BIBLIS l indexation humaine L avis pr liminaire des indexeurs de l quipe Vidal est pour l instant favorable l int gration de l outil F MTI BIBLIS L quipe estime que cela facilitera son travail d indexation cependant ceci reste valuer dans leur pratique quotidienne Une premi re valuation permettra d analyser l apport de l outil BIBLIS pour l indexation quotidienne de RCP Cette valuation consistera comparer l indexa tion produite avec l outil et sans l outil sur un corpus de RCP les indexations tant produites par le m me indexeur sur deux p riodes proches pour maximiser la consis tance Une deuxi me valuation permettra d valuer l apport de la proposition d indexa tion automatique de F MTI dans l outil BIBLIS Les indexeurs seront alors invit s indexer le RCP sans consultation de l indexation F MTI puis de consulter l indexa tion de F MTI et mesurer la quantit et la qualit des changements effectu s apr s cette consultation 5 8 Indexation automatique de dossiers patients L outil F MTT pourra tre utilis pour l indexation automatique des dossiers pa tients 5 3 1 Aide au codage pour le recueil de donn es m dico conomique Les m decins ont de moins en moins de temps pour coder les dossiers de leurs patients F MTT pourrait tre int gr des logiciels de gestion de dossiers pa tients lectroniques afin d aider l utilisateur dans le c
153. TUV a t orient car c est une des terminologies impl ment e dans F MTTI et qui semble contenir plus de mots de type diff rents unit s mots anglais latin grec etc que les autres terminologies De plus cette valuation int ressait le Vidal pour de futurs produits Tous les mots signifiants du TUV ont d abord t extraits puis d suffix s l aide des trois algorithmes de d suffixation Nous avons ainsi identifi 5 463 mots m dicaux et g n raux sur 84 968 dont les radicaux taient diff rents pour au moins une des trois m thodes Ensuite pour ces mots nous avons mesur la pertinence de chaque st me par rapport une r f rence Cette r f rence a t constitu e partir de plusieurs sources m dicales et g n rales dictionnaire repris d une pr c dente tude voir section 3 7 3 Tous ces dictionnaires ont permis de constituer 8 404 familles de mots soit 707 108 mots en tout Une famille de mots est constitu e par tous les mots partageant le m me th me mor phologique et un sens commun pr sents dans les dictionnaires exemple lt asthme gt lt asthmes gt lt asthmatique gt et lt asthmatiques gt font parti de la m me famille Enfin la pertinence de chaque radical pour chaque mot du TUV est calcul e en comparant les familles de mots cr es par ce radical par rapport aux familles de r f rence Pour d finir la famille de mots pour chaque radical nous avons r alis la liste de l en
154. Web l aide 185 Chapitre 8 Conclusion g n rale Section 8 0 de plusieurs terminologies Dans un dossier patient lectronique cet outil permettra une aide a l indexation m dico conomique pour le calcul du budget des h pitaux et descriptive pour la structuration des dossiers patients F MTI sera utilis dans plusieurs projets de recherche Interstis pour la recherche de termes dans un serveur multi terminologies PSIP pour la collecte de donn es pouvant permettre d optimiser la s curisation de prescriptions Aladin pour la d tection des infections nosocomiales a partir de documents textuels hospitaliers Nous avons envisag et test d autres applications de notre outil Celles ci sont l aide au transcodage l indexation multilingue l aide l indexation g n raliste la consti tution de r sum s automatique et l aide la r daction pour lesquelles les travaux seront poursuivis D autres travaux ont consist cr er des outils et mettre au point des m thodes pour permettre aux utilisateurs d acc der la bonne information au bon moment C est ainsi qu un acc s de type lt InfoButton gt permet partir du dossier patient d acc der des bases de connaissances sur Internet donnant aux utilisateurs un acc s lorsqu ils en ont besoin de l information disponible et adapt e leur profil pa tient m decin ou tudiant L outil d velopp a t mis en place au CHU de
155. a S Evaluation de plusieurs m thodes d optimisation du codage m dico conomique Master s thesis Universit Paris 5 2006 Pereira S Massari P Joubert M Darmoni S Utilisation de m tatermes pour la recherche d information dans les dossiers m dicaux In Actes des journ es Francophones d Informatique M dicale 2007 Pereira S Massari P Buemi A Dahamna B Serrot E Jou bert M Darmoni S Evaluation of two French SNOMED in dexing systems with a parallel corpus Poster 3rd internatio nal conference on Knowledge Representation in Medicine KR MED 2008 Pereira S Massari P Joubert M Serrot E Darmoni S Explo ring Multi terminology Indexing of Discharge Summaries Pos ter MIE2008 2008 Pereira S N v ol A G K E S Joubert M Darmoni S Using multi terminology indexing for the assignment of MeSH descriptors to health resources in a French online catalogue AMIA Annu Symp Proc in press 2008 Pereira S N v ol A Kerdelhu G Serrot E Joubert M Dar moni S Using multi terminology indexing for the assignment of MeSH descriptors to health resources in a French online ca talogue Soumis AMIA2008 2008 Petitpierre D Russel G Mmorph The Multext Morphology Program Technical Report ISSCO 1994 Pillou J Tout sur les R seaux et Internet Dunot 2006 Pisani F Piotet D Comment le web change le monde L al chimie des multitudes VILLAGE MONDIAL 2008
156. abe eee ee 27 2 3 3 L indexation en pratique 34 2 4 Les bases de notre sujet pr sentation des t ches d indexation 35 TABLE DES MATIERES vi 2 9 2 6 2 4 1 Indexation des sites Web m dicaux par l quipe CISMeF 36 2 4 2 Indexation de l information pour les m dicaments par la soci t Vidals amp de doe Bk 2e RE Rd ee 4 Du Dos a d 40 2 4 3 Codage de l information pour les dossiers patients 45 Aide l indexation 424 6 4 ou RG a A ke ae ae we G amp S 56 2 5 1 Apports de l indexation automatique et semi automatique 56 2 5 2 M thodes d valuation d outils d indexation automatique et semi automatique aooo e 57 2 5 3 Travaux dans le domaine 60 2 5 4 Notre contribution 2 4 4 444 da 4 ue a eau peer 73 Conclusion 4 Le IR a 75 II F MTI un extracteur multi terminologique pour l aide a indexation 76 3 Conception de l extracteur multi terminologique 77 3 1 Introduction LL Nr oko de id ets she 6 REGED ES TT 3 2 Principe de la multi terminologie TI 3 3 Principe de fonctionnement 78 3 4 Mod lisation des terminologies 79 3 4 1 Mod les unitaires 79 3 4 2 Mod le general 2 44 4 4 2u us Dub au he bag die 82 3 5 Cr ation de libell s d indexation 84 3 6 Conversions des fichiers oo a aa a 87 3 7 Les unit s
157. acteur multi terminologique Section 3 4 Mod lisation des terminologies Nous pr sentons ici le mod le de la terminologie CISMeF ainsi que celui de la terminologie TUV pour plus d informations et pour consulter les autres mod les voir Annexes Mod les unitaires 3 4 1 1 Mod le CISMeF Le mod le de repr sentation de la terminologie CISMeF d duit de la description faite la section 2 3 2 est pr sent figure 3 2 Neuf classes ont t identifi es voir Annexes Mod les unitaires cd Diagramme de classe le MeSH CISMeF J code_p re char code_fischar niveencint codet cher codeZ cher qualitint actions pharmaco int code char ivelle char 4angue char Quat ts athhables cher T char lt ode_hier cher li par poss de 1 atermechar lt ode cher lt onn es exco syrtaxiqueschar Akell char escrpieurs_b s char TR f scher qualifs_li s char FIGURE 3 2 Diagramme de classes repr sentant la structure du MeSH au formalisme UML Classe des descripteurs cette classe renseigne les descripteurs du th saurus Classe des Qualificatifs cette classe renseigne tous les qualificatifs du th saurus MeSH Classe des Types de ressources cette classe renseigne tous les types de ressources CISMeF Classe des M tatermes cette classe r unie tous les m tatermes pouvant tre rattach s un ou plusieurs descripteur
158. ademic Press 1990 664 van Rijsbergen C Information Retireval Butterworths Lon don 1979 Vapnik V The Nature of Statistical Learning Theory Springer 1995 Voorhees E Evaluatiing the evaluation Edmonton Proceesings of HLT NAACTL 2003 181 188 Wall L Programmation en Perl 3e dition Broch 2001 Weed L Medical records that guide and teach N Engl J Med 1968 10 2 278 12 652 7 Wehrli E Medical linguistics software tools for prospective pro duction In Scherrer JR Cot RA amp Mandil SH eds Com puterized natural medical language processing for knowledge re presentation Amsterdam Elsevier Science 1988 67 72 WHO W H O International Classification of Functionning Didability and Health URL http www who int classifications icf fr Wilbur J The knowledge in multiple human relevance judge ments ACM 1998 102 115 Xu J Croft B Corpus based stemming using co occurence of word variants ACM Transactions on Information Systems 1998 16 1 61 81 Yang Y Chute G An example based mapping method for text categorization and retrieval ACM Transactions on Information Systems 1994 12 3 252 277 Zeng Treitler Q Kim H Goryachev S Keselman A Slaughter L Smith C Text Characteristics of Clinical Reports and their Implications for the Readability of Personal Health Records Stud Health Technol Inform 2007 1117 21 Zeng Q Cimino J Evaluation of a system to identi
159. adre d une bourse CIFRE Cette th se a t conduite par trois partenaires la soci t Vidal le labo ratoire LERTIM et le laboratoire LITIS Le LITIS est le Laboratoire d Informatique de Traitement de l Information et des Syst mes Il est l unit de recherche dans le domaine des Sciences et Technologies de l Information et de la Communication STIC de Haute Normandie Depuis mars 2006 le LITIS est reconnu en tant qu Equipe d Accueil EA4108 Le LITIS est pluri disciplinaire associant praticiens et th oriciens la jonction de l informatique de la reconnaissance des formes du traitement du signal et des images de la m decine et des math matiques La soci t Vidal est une filiale de CMP Medica Group United Business Me 1 Les travaux de th se ont d marr officieusement en septembre 2005 apr s six mois de stage de master 2 en Informatique m dicale au sein de l quipe CISMeF 2 Les conventions CIFRE Conventions Industrielles de Formation par la Recherche associent autour d un projet de recherche trois partenaires une entreprise un jeune dipl m et un labora toire L Association nationale de la recherche technique ANRT est responsable de la gestion et de l animation des conventions CIFRE http www anrt asso fr fr espace_cifre accueil jsp index 2 3 Site Internet du laboratoire http www litislab eu 4 Site Internet de la soci t http www vidal fr index htm Chapitre 1 Contexte
160. aine merger celui de la construction de bases de connaissances et de syst mes d aide la d cision Nous al lons dans ce chapitre d finir ces deux domaines ainsi que les besoins usages et acc s qui en sont fait par les diff rents acteurs du monde m dical Ce chapitre pr sente galement la notion d indexation et sa mise en place dans la r alisation des diff rentes t ches mises en vidence dans le chapitre 1 La termino logie MeSH et la politique d indexation des ressources en MeSH au sein de l quipe CISMeF sont pr sent es ainsi que le codage m dico conomique pour les dossiers pa tients et les terminologies associ es Suit une pr sentation de l indexation des RCP l aide des terminologies Vidal Le sujet et les enjeux pos s nous envisageons de recourir la construction d ou tils d indexation automatique afin d am liorer les processus d crits Nous pr sentons la notion d indexation automatique ainsi que les travaux existants dans le domaine et les axes d am liorations 2 2 Fondements de la recherche d information et des bases de connaissances Le sujet de cette these touche deux domaines la recherche d information lectronique et ses particularit s sur Internet ainsi que la construction de bases de connaissances pour les systemes d aide a la d cision Nous d finissons ces deux do 19 Chapitre 2 tat de l art Section 2 2 Fondements de la recherche d information et des bases de
161. aines racines d usage strictement m dical ne se retrouvent que dans les mots du domaine exemple lt ectomie gt En 114 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es outre les mots peuvent tre emprunt s au grec au latin exemple exemple lt in vitro gt l anglais exemple lt overdose gt pour surdosage ou l allemand avec une pr dominance pour le grec On trouve aussi des expressions comportant des noms propres avec notamment les maladies ponymiques exemple maladie d Alzhei mer gt Le vocabulaire m dical fait aussi tat de nombreux n ologismes pour iden tifier les nouveaux concepts issus de nouvelles d couvertes Les termes peuvent aussi contenir de nombreux sigles exemple lt ph gt symboles exemple lt Na gt pour so dium unit s exemple lt g gt pour gramme multiples ou fractions d unit s exemple lt kilo gt pour multiplier par 1000 des symboles math matiques des lettres grecques Enfin il existe aussi de nombreux mots compos s avec trait d union Tout ceci peut complexifier la d suffixation et certains algorithme peuvent tre mieux adapt s que d autres Nous avons donc compar trois m thodes de d suffixation l algorithme CISMeF l algorithme traite tour de r le une liste de suffixe 63 suffixes voir la liste des traitements figure 4 1 Le traitement consiste liminer ou remplacer les suffi
162. aison est recherch e dans l ensemble des sacs de mots pour chaque terme des diff rentes terminologie d termin s l avance et stock s dans notre base de donn es multi terminologiques voir section 3 4 2 Lorsqu un sac de mots d un terme a t identifi dans la phrase alors le terme ainsi que les l ments d informations l entourant code langue etc est ajout la proposition d indexation finale voir figure 3 12 pour un exemple 11 http lucene apache org 12 Les entr es d un dictionnaire comme le Larousse ou le Petit Robert par exemple sont lem matis es 13 Utilis dans le cadre du projet Vodel http vodel insa rouen fr issu d une collaboration entre l quipe CISMeF la soci t M modata le laboratoire Laseldi et la soci t EADS et le Sinequa Labs 96 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point Phrase Ulc re gastrique op r il y a 20 ans v ulc re gastrique op r il y a 20 ans v ulc re gastrique op r 20 ans sac de lemmes sac de stemes 20 an gastrique op r ulc re ou 20 an gastric op r ulcer ajouts selon la rubrique rattach e ant c dents vy Toutes les combinaisons sont g n r es 20 an gastric op r ulc r an gastric op r ulc r gastric op r ulc r an gastric op r etc Et compar es aux termes des diff rentes terminologies trait s de la m me fa on Proposition d i
163. aissance existe pour le fran ais 4 2 3 1 M thode d valuation Au d part de cette tude nous voulions comparer le r sultat de l indexation auto matique produite par les deux outils F MTT et SnoCode par rapport une indexation SNOMED r alis e manuellement par un expert Dr A Buemi sur l chantillon des 100 comptes rendus utilis s dans l valuation CIM10 Cela aurait t en France la premi re exp rience d indexation manuelle de comptes rendus en SNOMED 3 5 Les 100 comptes rendus ont t pr sent s l expert qui suite l indexation d un seul compte rendu a d montr qu une indexation manuelle tait beaucoup trop fas tidieuse et prendrait beaucoup trop de temps Il lui a fallu plusieurs heures 8 heures pour indexer un seul compte rendu de 3 pages L explication est li e la complexit de la SNOMED 3 5 voir discussion Face ce constat il a t n cessaire de trouver un autre moyen de comparer ces deux outils La projection des codes SNOMED vers une autre terminologie moins complexe et qui puisse tre manuellement index e a sembl tre la solution la plus 127 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es simple La CIM10 d j utilis e pour indexation des 100 comptes rendus choisis nous permet de comparer ces deux outils en terme d extraction de maladies Nous avons donc pour chaque ensemble de codes SNOMED produit par
164. and et espagnol La traduction frangaise de la SNOMED CT devrait bient t d marrer grace au HITSDO Elle poss de galement plus de 10 transcodages vers d autres terminologies CIM10 OPCS 4 2 etc La SNOMED 3 5 a t la seule traduite en francais Cette traduction r alis e par l quipe du Centre de recherche en diagnostic m dical informatis CRDMI s est termin e en 2006 en partie gr ce au projet VUMeF d j abord dans le chapitre 1 Elle est actuellement traduite en 11 langues dont fran ais espagnol portugais chi noi japonais et turc et renferme des concepts m dicaux normalis s Elle comporte un axe classificatoire qui permet de faire le lien avec la CIM axe D La traduction 47 Ce projet est issu d une collaboration entre le College of American Pathologists la soci t Kaiser Permanente Health Management Organization et la Mayo Clinic 54 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation a ainsi t accompagn e par le transcodage en CIM 10 Cette terminologie a t adopt e en France en 2007 pour l indexation des dossiers patients lectroniques La SNOMED 3 5 est multi axiale et multi domaine Elle comporte onze axes or thogonaux chaque axe recense les termes d un sous domaine de la m decine exemple D diagnostics T topographie M morphologie voir figure 2 16 Chaque axe est hi rarchis en fonction de la sp
165. ans F MTT Les cinq valuations suivantes portent sur les performances du F MTT lt en si tuation gt Ainsi l indexation produite l aide de la CIM10 de la CCAM et de la SNOMED pour les comptes rendus d hospitalisation est valu e Nous valuons aussi l indexation des ressources Web l aide du MeSH et des RCP l aide du TUV Notre outil a finallement t compar un autre outil d indexation automatique en SNOMED 3 5 SnoCode 4 2 Evaluations r alis es 4 2 1 valuation de diff rentes m thodes de d suffixation 4 2 1 1 Principe La m thode de l algorithme du sac de mots impl ment e dans F MTT n cessite un algorithme de d suffixation A l origine cette m thode utilise un algorithme de d suffixation produit par l quipe CISMeF pour la traduction des requ tes en termes MeSH dans le moteur de recherche Doc CISMeF Cependant cet algorithme est connu pour tre tr s simple et restreint aux suffixes les plus courants Il existe par ailleurs plusieurs outils libres d utilisation mais tr s peu ont t valu s et aucun n a t test ce jour dans le domaine m dical Les termes m dicaux sont tr s particuliers Plus que dans d autres domaines il se trouve de nombreux mots de composition savante form s partir de radicaux de pr fixes ou de suffixes exemple lt h patite gt compos partir de lt h pa gt pour foie et du suffixe lt ite gt pour inflammation Ainsi cert
166. ante fr 38 Livres 48 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation de la hi rarchie est fonction de la fr quence ou de la gravit des maladies La CIM10 est partitionn e en 21 chapitres couvrant l ventail complet des tats morbides class s par appareil fonctionnel et associ s une lettre exemple la lettre E est associ e au chapitre Maladies endocriniennes nutritionnelles et m taboliques Les chapitres sont divis s en groupes eux m mes divis s en sous groupes compos s de cat gories 3 caract res code compos de 3 caract res et de sous cat gories 4 ca ract res englobant le contenu des termes CIM10 voir figure 2 10 Les cat gories 3 caract res repr sentent l unit diagnostique signifiante de base c est dire le niveau minimum de codification Enfin des subdivisions peuvent appara tre de mani re facultative dans certains chapitres Chapitre 4 E00 E90 Maladies endocrmiennes nutritionnelles et m taboliques Groupe aes E10 Eid Diab te sucr Cat gorie 3 caract res E10 Diab te sucre insulino d pendant2 sas E10 1 Diab te sucr msulino d pendant avec coma BRIA E10 2 Diab te sucr msulino d pendant avec acidoc tose ASE E10 3 Diab te sucr imsulino d pendant avec complications r nales PARERS E10 4 Diab te sucr insulino d pendant avec complications neuro
167. are Del Fiol07 Dans la litt rature des am liorations ont t apport es l Infobutton avec luti lisation de bases de connaissances liant les l ments du contexte avec des besoins d information li s des ressources Ce qui en pratique permet de proposer l utilisa teur des liens direct vers les ressources Li07 Une tude r cente utilise des m thodes d apprentissage automatique afin de pr dire la ressource qui sera s lectionn e par un utilisateur dans un contexte particulier afin de ne pr senter que les plus probables l utilisateur Del Fiol07 Le temps de recherche de l utilisateur qui doit rechercher parmis plusieurs ressources possibles est ainsi r duit Nous pourrons appliquer ces m thodes dans une prochaine version 7 3 Recherche par sp cialit m dicale Dans les dossiers m dicaux lectroniques les informations du patient sont le plus souvent class es par date et par s jour ce qui ne facilite pas la recherche d informa tion par les professionnels de sant et les patients surtout face un dossier important avec de nombreuses informations et de nombreux s jours Pour am liorer cette re cherche d information le dossier m dical orient probl me a t introduit en 1963 Weed68 mais il est encore peu appliqu surtout en France Falcoff99 du fait de la structuration particuli re des donn es du patient qu elle n cessite Lundsgaarde8 1 Cette structuration implique une saisie des
168. armaceutique les donn es cliniques posologie indications contre indications effets secondaires precautions d emploi etc La notice qui accompagne chaque m dicament pr sente l essentiel des informations du RCP dans un vocabulaire plus accessible pour le patient Les RCP sont directement obtenus aupr s de l AFSSAPS d s leur publication Les diff rentes quipes Vidal sont alors charg es de recueillir les informations et de les saisir dans la base de connaissance sur le m dicament Afin de permettre la s curisation des prescriptions et l affichage des donn es dans les logiciels l quipe Donn es th rapeutiques Structur es du Vidal est charg e d indexer manuellement les donn es cliniques des RCP grace des terminologies sp cifiques d velopp es en interne 1 3 2 4 Une priorit l innovation en permanence La soci t Vidal travaille sans cesse au perfectionnement de ses produits en int grant de nouvelles fonctionnalit s susceptibles d int resser les utilisateurs L am lioration de la s curisation de la prescription passe par l ajout d alertes contex tuelles gr ce l int gration de nouvelles donn es sur le m dicament La soci t Vidal cherche galement am liorer l acc s aux informations dans leurs produits par exemple en am liorant les supports d information avec l XMLisation des RCP source de l information trait e Des travaux ont t men s afin d enrichir les terminol
169. ased patient record reference model Proc Annu Symp Comput Appl Med Care 1995 377 81 Douyere M Soualmia L N v ol A Rogozan A Dahamna B Leroy J Thirion B Darmoni S Enhancing the MeSH thesaurus to retrieve French online health resources in a quality controlled gateway Health Info Libr J Dec 2004 21 4 253 261 Dufour J Contribution a l am lioration de la d cision Int gration des guides de bonnes pratiques cliniques informa tis s dans la pratique m dicale Ph D thesis Universit de la M dit rran e 2005 Dutoit D Quelques op ration texte jsens et texte jsens j texte utilisant une s mantique linguistique universaliste priori Ph D thesis Universit de Caen 2000 Elhadad N Sutaria K Mining a Lexicon of Technical Terms and Lay Equivalents Proceedings of BIONLP 2007 49 56 Elisabeth B Oystein N Anders G Ontologies for knowledege representation in a computer based patient record 14th IEEE International Conference on Tools with Artificial Intelligence ICTAI 02 2002 114 Elkin P Brown S Bauer B Husser C Carruth W Berg strom L Wahner Roedler D A controlled trial of automated classification of negation from clinical notes BMC Medical In formatics and Decision Making 2005 5 13 211 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Ely05 Falcoff99 Fieschi05 Fisher83 Flannery95 Florea07a Florea07b Fontelo07 Friburg
170. ations r alis es faible pr cision Il est difficile pour F MTI de d terminer quels codes sont les plus importants parmis tous ceux qu il a extrait Les codes les plus importants ne sont pas plus repr sent s dans les comptes rendus m dicaux que les autres L hypoth se selon laquelle les codes les plus importants sont pr sents dans la conclusion n a pas non plus t v rifi e puisque les r sultats obtenus n ont pas t significatifs Pereira06 Il est donc important d injecter des connaissances m dicales pour les identifier L une des solutions est d eliminer les redondances les diagnostics et leurs symptomes ou diff rentes formes du m me diagnostic ou bien encore la ma nifestation et la maladie initiale Le m decin ne code g n ralement pas les sympt mes ou les manifestations associ es sauf s ils ne sont associ s aucun diagnostic La r gle suivante pourrait tre appliqu e si deux codes CIM10 co existent l un tant un sympt me ou la manifestation de la maladie repr sent e par le second code alors le code du sympt me ou la manifestation est limin En revanche un sympt me ou une manifestation non associ e une maladie sera conserv La CIM10 contient les relations manifestations maladies ce sont les relations dagues ast risque voir section 2 4 3 2 Mais elle ne contient pas les relations sympt me de gt ou diagnostic de gt On retrouve ces rela tions dans la SNOMED CT qui est re
171. atique se base sur le traitement du contexte Analyse morphologique Elle permet d identifier les mots du texte D abord par identification ou segmentation des phrases d un texte Puis le texte est d coup en unit s lexicales les mots Chaque mot peut tre identifi e par association de sa forme g n rique un lemme et d une cat gorie morphosyntaxique voir figure 2 21 Ces m thodes font appel des traitements lourds des bases de donn es volumi neuses et n cessitent des r actualisations r guli res Ceci est d autant plus vrai dans le langage m dical o de nouveaux termes apparaissent r guli rement Quelques outils Les outils NOOJ Silberztein04 et Mmorph Petitpierre94 per mettent une analyse morphologique Brill Brill95 et Treetagger sont des syst mes d tiquetage automatique des cat gories grammaticales des mots compatibles avec FLEMM FLEMM Namer00a est un programme de lemmatisation et d analyse morphologique du frangais 50 Voir le TC Project http www ims uni stuttgart de projekte corplex TreeTagger 62 Chapitre 2 Etat de l art Section 2 5 Aide l indexation Analyse syntaxique L analyse syntaxique traite de la mani re dont les mots peuvent se combiner pour former des groupements structurels ainsi que des relations fonctionnelles qui unissent les groupes Elle se base partir de l analyse morpho lexicale voir figure 2 21 Citons un outil pour le fran ais a
172. atures Rector03 et FMA Foundational Model of Anatomy Rosse03 17 Accessible ici http www opengalen org 31 Chapitre 2 tat de l art Section 2 3 D finition de l indexation et du codage 2 3 2 3 3 Unification et interop rabilit des terminologies UMLS D A B Lindberg directeur de la NLM a propos en 1986 la conception et le d veloppement d un syst me de langage unifi ou Unified Medical Langage Sys tem gt UMLS 8 Lindberg90 afin d am liorer l acc s l information m dicale pro venant de sources diff rentes en permettant aux diff rentes banques de donn es de communiquer avec un langage de r f rence commun L UMLS repr sente une tenta tive d approcher au plus pr s le langage naturel et de lever toutes les ambiguit s et redondances possibles par une lecture en contexte des documents m dicaux L UMLS tente de regrouper tous les thesaurus nomenclatures et classifications existantes uti lis s pour la gestion des donn es de sant les bases de donn es bibliographiques et le dossier patient plus de 100 terminologies biom dicales dont le MeSH la SNOMED 3 5 et la CIM10 L UMLS est un syst me qui conjugue trois bases de connaissance le m tathesaurus qui regroupe tous les termes le r seau s mantique qui regroupe toutes les rela tions et le SPECIALIST Lexicon qui contient les informations syntaxiques mor phologiques et orthographiques Le M tathesaurus constitue
173. aumier92 Il existe diff rentes m thodes la premi re consiste appliquer dans un premier temps le programme informatique puis lors de l indexation manuelle l indexeur hu main peut avoir acc s la proposition d indexation automatique Celle ci peut tre consid r e comme lt valide gt ou lt valider Si elle est valide l indexeur devra liminer les termes qu il ne souhaite pas voir appara tre et compl ter la liste avec d autres termes pour cr r l indexation finale Si elle est lt a valider gt l indexeur devra selec tionner les termes ad quats et compl ter la liste avec d autres termes pour cr r l indexation finale Une seconde m thode consiste reformuler manuellement le document d ori gine afin que les expressions deviennent faciles analyser pour le programme Le programme est alors lanc sur le document modifi et finallement l indexeur valide l indexation obtenue L indexeur humain peut aussi s lectionner au pr alable les portions de texte qu il veut voir traiter par la machine afin de rendre les traitements plus rapides et dimi nuer le bruit pouvant tre g n r par l indexation automatique L indexation produite poss de l ensemble des qualit s de l indexation humaine et automatique gain de temps par rapport l indexation humaine d sambiguisation qualit de l indexation produite mise jour variabilit faible sans les d fauts 2 5 2 M thodes d valua
174. autoris e 7 Les indexeurs peuvent aussi laborer des r gles d indexation communes selon l usage qui sera fait en interne de leurs indexations L tape finale consiste lier dans une base de donn es le document et les termes d indexation 20 On ne peut pas associer le qualificatif lt diagnostic gt au terme lt biblioth que gt par exemple dans le MeSH 34 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation L indexation fonctionnelle quant elle consiste analyser le texte et rep rer quels sont les concepts de la terminologie utilis e pr sents dans le document Une lecture tr s attentive et un effort de compr hension plus pr cis seront n cessaires Un travail de synth se est galement utile afin d viter les redondances La encore des r gles d indexations peuvent exister L tape finale consiste rentrer de nouvelles connaissances dans la base de connaissance telles que dans le cadre d indexation de RCP les indications contre indications effets secondaires et pr cautions d emploi rattach s une sp cialit Lors de ce travail d indexation il est n cessaire de diff rencier le theme principal des informations secondaires ou accessoires et d cider jusqu quel niveau de d tail descendre dans la repr sentation de ces informations Cette profondeur d analyse influence les niveaux de bruit et de silence obtenus lors de la
175. aux outils informatiques au service du PMSI Paroles d expert M DH Magazine 2008 118 67 Li J Cimino J Auditing Dynamic Links to Online Information Resources AMIA Annu Symp Proc 2007 448 52 Lin D An information theoretic definition of similarity In Proc Int Conf on Machine Learning 1998 296 304 Lindberg D Humphreys B The UMLS Knowledge Sources Tools for Building Better User Interfaces Proceedings of the 14th annual SCAMCANDEEE Computer Society Press 1990 121 125 Liu F Fontelo P Ackerman M BabelMeSH Developpement of a Cross Language Tool for MEDLINE Pubmed AMIA Annu Symp Proc 2006 1012 Loisel A Chaignaud N Kotowicz J Designing a Human Computer Dialog System for Medical Information Search Proc IEEE WIC ACM International Conferences on Web Intelli gence and Intelligent Agent Technology Workshops 2007 350 353 Lovins J Developpement of a stemming algorithm Mechanical Translation and Computional Linguistics 1968 11 22 31 215 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Lovis96 Lovis98 Lu05 Luhn58 Lundsgaarde8 1 Massari00 Massari08 Maviglia06 Mayer03 Merabti08a Merabti08b Min06 Misset05 Lovis C Codage medico economique des diagnostics et proc dures Ph D thesis Universit de Gen ve 1996 Lovis C Raud R Rassinoux A Michel P J R S Medical dictionaries for patient encoding systems a me
176. base de donnees FIGURE 2 1 Sch ma de la recherche documentaire inspir de Roussey01 la recherche contextuelle l volution actuelle lors de la recherche sur le texte int gral est de non seulement retrouver le ou les documents pertinents mais aussi de pointer sur la phrase ou la portion de phrase qui constitue une r ponse la question Elle part d un mot ou d un groupe de mots pour aboutir un texte qui contient les mots en question ou le concept qu ils repr sentent 2 2 2 Particularit s de la recherche d information sur Inter net Internet va f ter en 2009 ses 40 ans d existence Le r seau s est d velopp lente ment au d part en r ponse aux besoins grandissants de communiquer et de partager les travaux des chercheurs gr ce la messagerie et aux serveurs de fichiers D abord r serv aux chercheurs Internet est devenu un instrument de communication ouvert tous pour changer consulter des documents mais aussi en publier L arriv e du Web de l ordinateur individuel utilis au travail dans les lieux publics et la mai son dans les ann es 90 Pisani08 Pillou06 a amplifi le ph nom ne Internet conna t 2 Base de donn es bibliographique am ricaine accessible ici http www ncbi nlm nih gov pubmed 3 Base de donn es anglaise fournissant des documents Web sur l ducation et la recherche site accessible ici http www intute ac uk healthandlifesciences medicine 2
177. bases de notre sujet pr sentation des t ches d indexation La d finition des diff rentes notions abord es tant tablie nous pr sentons ici les t ches d indexation ex cut es par les diff rentes quipes afin ensuite de trouver des solutions d am liorations Nous d crivons les documents index s les terminologies utilis es ainsi que les r gles d indexation appliqu es 39 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation 2 4 1 Indexation des sites Web m dicaux par l quipe CIS MeF Les ressources dans le catalogue CISMeF sont index es avec la terminologie CIS MeF Nous allons d crire cette terminologie qui se base sur le thesaurus MeSH ainsi que les r gles d indexation permettant d associer des termes de cette terminologie une ressource 2 4 1 1 Le thesaurus m dical Medical Subject Heading MeSH La premi re liste de sujets la Subject Heading Authority List a t publi e par la National Library of Medicine NLM des Etat Unis d pendant du National Institute of Health en 1954 Elle tait fond e sur la Current List of Medical Literature le Li brary s Index Catalogue et le Quarterly Cumulative Index Medicus Subject Headings de 1940 La premi re version du MeSH est apparue en 1960 pour indexer les articles scientifiques dans le syst me bibliographique biom dical automatis de stockage et de recherche MEDLARS devenu depu
178. bidirectionnels Un autre transcodage cette fois unidirectionnel entre la SNOMED et la CIM10 SNOMED gt CIM10 cr par la SFINM a aussi t utilis Le transcodage unidirectionnel CCAM gt MeSH cr dans l quipe CISMeF par P Massari voir section 5 8 1 Le transcodage CIM10 CCAM de TOTHEM Chevallier03 29 Terme A gt les termes C D E d une autre terminologie Mais C gt D n est pas valide 110 Chapitre 3 Conception de l extracteur multi terminologique Section 3 12 Post traitement Le transcodage unidirectionnel TUV gt MeSH cr par CISMeF et valid par la soci t Vidal et le transcodage unidirectionnel TUV gt CIM10 cr par Vidal Apr s quelques exp rimentations il s est av r que de nombreux transcodages n taient pas adapt s Le sens n est parfois pas respect apr s transcodage C est le cas des transcodages TUV gt CIM10 et CCAM CIM10 qui ont t r alis s pour des t ches pr cises au sein des organismes Ces t ches ne correpondaient pas un besoin d quivalence en sens Ces transcodages n ont donc pas t impl ment s dans F MTI Les autres transcodages sont impl ment s dans la table lt Les_relations_inter_terminologiques gt de notre base de donn es multi terminologique La m thode est appliqu e apr s fusion des termes obtenus par les diff rentes m thodes d indexation Elle n utilise que les transcodages impliqu s par les termi nol
179. but rgpment d signe le code regroupement de l acte L attribut indique tous les autres champs qui peuvent tre ins r s dans la table et non pr sent s pr c demment Classe des Modificateurs cette classe comprend la liste de tous les modi ficateurs pouvant tre reli s n importe quel code CCAM Quelques commentaires l attribut coefficient indique le coefficient ap pliqu au tarif pour ce modificateur 10 codes possibles Classe des Propri t s cette classe comprend la liste de tous les codes regroupement pouvant tre rattach un code CCAM Quelques commentaires 15 codes possibles Classe des Activit cette classe comprend la liste de tous les codes activit pouvant tre reli n importe quel code CCAM Quelques commentaires 6 codes possibles Classe des Ext _doc cette classe comprend la liste de toutes les extensions documentaires pouvant tre reli es n importe quel code CCAM Quelques commentaires 10 codes possibles Classe des Associations m dicales cette classe indique toutes les associa tions de codes code CCAM code activit permises et non permises pour un code CCAM voir annexe n 13 Quelques commentaires l attribut code _activit repr sente le code de l activit du code associ L attribut coeff_assoc indique le coefficient de l as sociation appliqu au tarif L attribut type_assoc permet de signaler si l asso ciation est permise
180. c 2005 565 569 N v ol A Zeng K Bodenreider O Besides Precision amp Recall Exploring Alternative Approaches to Evaluating an Automatic 217 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE N v ol07a N v ol07b Odell18 OFS06 OMS50 OMS93 Paice96 Pappa04 Paternostre02 Patriarche05 Pereira Indexing Tool for MEDLINE AMIA Annu Symp Proc 2006 589 593 N v ol A Mork J Aronson A Automatic Indexing of Specia lized Documents Using Generic vs Domain Specific Document Representations BIONLP Biological translational and clini cal language processing 2007 183 190 N v ol A Pereira S Kerdelhu G Dahamna B Michel Jou bert d St fan J Darmonib c Evaluation of a simple method for the automatic assignment of MeSH descriptors to health resources in a French online catalogue Stud Health Technol Inform 2007 129 407 11 Odell M Russell C The soundex coding system US Patents 1918 OFS O f d l s D finition en entit s et relations de la CIM10 La CIM10 par V OFS 2006 OMS O m d l s Manuel de classement statistique internatio nal des maladies traumatismes et causes de d c s Sixi me r vision des nomenclatures internationales de maladies et causes de d c s adopt e en 1948 volume 1 amp 2 index alphab tique Technical report Gen ve OMS 1950 OMS O m d l s CIM 10 Classification statistique internatio nale des
181. c plus de pr cision une ressource Ils ont t inspir s des types de pu blication de la NLM la National Library of Medicine qui g re la base de donn e Medline Ils sont au nombre de 263 et sont accompagn s d une d finition Le type de ressource peut tre utilis seul afin de d crire la nature de la ressource ou af fili un descripteur ou une paire descripteur qualificatif nous parlons alors de tri plet descripteur qualificatif type de ressource exemple cancer des os traitement m dicamenteux mat riel enseignement gt qui permet de d crire les ressources d en seignement sur le traitement m dicamenteux du cancer des os Keywords Hierarchy Qualifiers Hierarchy Resource Types Hierarchy MeSH Elements Term IA o Part OT Reintionahip gt Metatem Tertt Avsocistion SYROS tee FIGURE 2 6 Les liens s mantiques entre les m tatermes CISMeF et les termes MeSH Le th saurus MeSH dans sa structure d origine ne permet pas d obtenir de vision globale d une sp cialit m dicale ce qui peut tre utile en mati re de recherche d infor mation Pour palier cet inconv nient l quipe CISMeF avec l aide d experts m dicaux a cr manuellement des meta concepts appel s m tatermes car ils permettent une vision plus globale du MeSH en offrant un niveau suppl mentaire d abstraction Ils correspondent aux sp cialit s m dicales ou aux sciences biologiques exemple lt cardiologie gt
182. cale 2002 Gaussier E Unsupervised learning of derivationnal morphology from inflectional lexicons ACL Workshop on Unsupervised Me thods in Natural Langage Learning 1999 Gay C Kayaalp M Aronson A Semi Automatic Indexing of Full Text Biomedical Articles AMIA Annu Symp Proc 2005 271 5 Gehanno J Thirion B Darmoni S Evaluation of Meta concepts for Information Retrieval in a Quality Controlled Health Gateway AMIA Annu Symp Proc 2007 269 273 Giorgi R Payan J Gouvernet J RSURV a function to per form relative survival analysis with S PLUS or R Comput Biol Med 2005 GIP DMP Dossier M dical Personnel premiers l ments de l tude aupr s des acteurs de la phase d exp rimentation rap port pr sent au COR 30 janvier 2007 Goldin I Chapman W Learning to detect negation with not in medical texts Proc Workshop on Text Analysis and Search for Bioinformatics ACM SIGIR 2003 Grabar N Zweigenbaum P A genral method for sifting linguis tic knowledge from structured terminologies J Am Med Inform Assoc 2000 7 suppl 310 4 Gutnik L Collins S Currie L Cimino J Patel V Infobut tons a study of usability Stud Health Technol Inform 2007 1481 Halleb M Lelu A Hypertextualisation automatique multi lingue a partir des fr quences des n grammes Hypertextes et hyperm dias 1997 1 2 3 4 275 287 Happe A Pouliquen B Burgun A Cuggia M Le Beux P Aut
183. capacit d inf rence 5 Schank81 vanDijk90 Quelques outils Le prototype Kalipsos d IBM Berard Dugourd89 gr ce une analyse syntaxique et une description conceptuelle permet de r soudre certains liens de sens entre les phrases Le projet H l ne Zweigenbaum89 permet l analyse de l encha nement chronologique et causal des faits pour l analyse de comptes rendus m dicaux Dor 92 51 permettent de d duire le sens de d sambigu ser r soudre les anaphores etc 52 consiste tirer une conclusion d une s rie de propositions 63 Chapitre 2 Etat de l art Section 2 5 Aide l indexation Rep rer les l ments d indexation dans un document Les documents sont r alis s pour tre lus et compris par des humains et non pour tre exploit s par des syst mes automatis s ce qui rend le probl me complexe Afin de d terminer les l ments du document expressions en langue naturelle pouvant correspondre morphologiquement rapprochement au niveau de la forme syntaxiquement rap prochement au niveau syntaxique ou s mantiquement rapprochement au niveau du sens un terme d une terminologie et ainsi r aliser l indexation du document il existe plusieurs m thodes voir figure 2 22 L indexation Conus par le TAL Lexique ou dictionnaire areas Lemme variante1 _ Apprentissage Lemme1 variante2 de nouvelles a variante3 H emme2 variante I variantes Lemme3
184. ce In Minerva 2008 7 3 44 45 Belgique mots cl s adulte asthme l effort pr vention et contr le bronchoconstriction pr vention et contr le enfant hormones corticosurr naliennes usage th rapeutique Type de Substances hormones corticosurr naliennes mc ressource types lecture critique d article URL acc s httpJ iwww minerva ebm be fr article asp id 1442 FIGURE 1 2 Exemple d une notice courte dexeurs 4 Caract ristiques externes de la ressource le titre les auteurs le type de ressource la cible la langue la date la source pays site diteur des in formations sur la qualit du document Darmoni98 l URL le format la langue le type d acc s et la date de consultation Informations sur le contenu du document un r sum succinct labor par les indexeurs et des mots cl s d crivant les notions principales abord es dans le document mots cl s g n raux et substances issus de la terminologie CIS MeF voir section 2 4 1 2 pour une description de la terminologie CISMeF et des m thodes d indexation L activit qui consiste assigner au document des mots cl s s appelle l in dexation gt Il existe diff rents niveaux d indexation Le choix de la m thode 11 Les sites web ou documents num riques sont des documents particuliers que nous appelerons ressources 12 Voir http www churouen fr netscoring 13 Seuls les principales do
185. ce web proposant notamment des fonctions de recherche dans les terminologies multilingues voir figure 5 6 Nous proposons d utiliser F MTT afin de traduire les requ tes des utilisateurs en termes appartenant aux diff rentes terminologies la mise en place et l adaptation de F MTI cette t che sera r alis e dans le cadre de la th se de S Sakji et T Merabti au sein de l quipe CISMeF et pourra utiliser les technologies de Semantic Mining d Oracle Ce projet a demand la cr ation d une base de donn s multi terminologique m me de recevoir les terminologies concern es ainsi que d autres terminologies ventuelles dans le futur La structure de la base de donn es a t contrainte par le fonctionnement de la plateforme Le mod le g n r est diff rent du mod le de base de terminologie CISMeF accessible via http www chu rouen fr terminologiecismef qui prend en compte la terminologie CISMeF incluant le thesaurus MeSH 21 Une premi re version a t developp e dans le cadre d un projet PIC projet universitaire de 5e ann e 22 notamment l anglais et l espagnol 23 Le Semantic Mining d Oracle permet de cr er des requ tes en SPARQL le langage d interro gation des ontologies 24 Les tudiants ont t co encadr s par moi m me pour cette tape pr sentation des diff rentes terminologies et aide pour la mod lisation 25 Les technologies utilis es sont celles de la plate
186. ces But Cette classe renseigne tous les types de ressources CISMeF Les attributs Un attribut suffit celui qui d signe le libell du type de ressource libell Classe des M tatermes But Cette classe r unie tous les m tatermes pouvant tre rattach s un ou plusieurs descripteurs qualificatifs et types de ressource Les attributs L attribut libell d signe le libell du m taterme Les attributs descripteurs_li s TR li s et qualifs_li s permettent de rensei gner tous les codes descripteurs les types de ressources et les codes qualificatifs pouvant tre reli s au m taterme Classe Hi rarchie But Cette classe structure la hi rarchie au sein du MeSH Les attributs L attribut code p re d signe le code MeSH du p re et l attribut code fils d signe le code MeSH de son fils De plus l attribut Niveau permet de pr ciser le niveau du lien p re fils niveau 1 p re fils niveau 2 grand p re fils Commentaires La hi rarchie MeSH est complexe nous pouvons avoir de 1 n fils pour un p re et de 1 n p res pour un fils Classe Voir aussi But Cette classe renseigne tous les liens de voir aussi gt entre deux codes MeSH Les attributs Les attributs codel et code2 permettent de renseigner les deux codes li s par un lien de voir aussi gt Commentaires Il existe de 0 n liens lt voir aussi gt pour un code MeSH Classe des D finitions But Cette classe r unie po
187. cherche devenu depuis Medline qui regroupe ce jour plus de 10 millions d articles en anglais Dans le cadre de l indexation fonctionnelle on parle de langage fonctionnel Celui ci permet de faire l inventaire des notions d un domaine ou pour une t che pr cise Le TUV ainsi que les 4 thesaurus dont il est issu ont t cr s pour l indexation des donn es th rapeutiques du RCP et la s curisation de prescriptions du Vidal La dixi me version CIM10 a t adapt e au codage m dico conomique pour d crire 14 Encore peu utilis e en pratique courante en France 27 Chapitre 2 tat de l art Section 2 3 D finition de l indexation et du codage l ensemble des maladies susceptibles d entra ner un co t pour l h pital en France Enfin la CCAM a t labor e uniquement pour la T2A Tarification l activit Kolher05 pour d crire les proc dures m dicales entra nant un co t Le r le du langage documentaire associ un document lors de la phase d indexa tion est double Salton83 il doit la fois tre descriptif c est dire repr sentatif du contenu du document et discriminant c est dire qu il doit mettre en vidence ce qui distingue le document l int rieur de la collection Un langage fonctionnel lui doit surtout tre exhaustif et correspondre parfaitement l usage qui en est fait 2 3 2 1 Vocabulaire contr l ou libre Dans l indexation libre la for
188. chrontque SAI M 43000 sans G C009 oe SAT T AA000 symbime SAI F 01250 FIGURE 2 17 Termes synonymies et r f rences dans la SNOMED 3 5 2 5 Aide l indexation Nous allons tudier les processus d aide l indexation qui peuvent assister les indexeurs humains dans leurs t ches quotidiennes d indexation pr c demment d crites 2 5 1 Apports de l indexation automatique et semi automatique L automatisation des t ches d indexation a un r el int r t dans un objectif d aide l indexation Dans la majorit des cas l indexation se fait manuellement avec quelques aides informatiques sous forme de formulaires de saisie ou de logiciels d aide la navigation Dans ce contexte l automatisation de la t che d indexation de la lecture du document la proposition d indexation serait une aide pr cieuse 2 5 1 1 L indexation automatique Une indexation produite de mani re automatique est plus r guli re qu une in dexation produite manuellement En effet la variabilit inter individuelle li e aux indexeurs est inexitante puisque face aux m mes donn es le programme informa tique donnera toujours la m me r ponse Elle s adapte aussi plus facilement aux mises jour des terminologies L indexeur humain habitu une version aura plus de difficult s passer la version suivante alors qu il suffit simplement de remplacer les donn es dans la base de donn es du progra
189. com paraison de documents qui pourraient d couler de F MTI Nous pouvons aussi envisager une m thode combin e BIBLIS 2 2 0 J OERA In Out Process Options Indexing Help Document Indexing graphique Type de document w Indications th rapeutiques lv Indexing al ST Fa INDICATIONS TH RAPEUTIQUES IND 5 gt Otite g F Elles proc dent de l activit antibact rienne et des caract ristiques pharmacocin tiques de ce otites moyennes aigu m dicament Elles tiennent compte la fois des tudes cliniques auxquelles il a donn lieu et de sa FR oe a7 place dans l ventail des produits antibact riens actuellement disponibles SEDI no his Elles sont limit es aux infections dues aux germes reconnus sensibles notamment certaines situations CIM10 o les esp ces bact riennes responsables de l infection peuvent tre multiples et ou r sistantes aux DIAG antibiotiques actuellement disponibles Sur ces bases ce m dicament pr sente un int r t tout Autres maladies pulmonai particulier dans les indications suivantes otites moyennes aigu Ciblor Adulte 500 mg 62 5 mg Ciblor Adulte 1 g 125 mg e otites moyennes aigu s de l adulte as e sinusites maxillaires aigu s et autres
190. comptes rendus d hospitalisation les r sultats sont diff rents selon que l on consid re une in dexation m dico nomique ou bien descriptive des comptes rendus en CIM10 6 2 D o l importance de Ces r sultats montrent l importance de disposer de terminologies adapt es la tache d indexation automatique vis e Les libell s doivent tre clairs sans ambiguit et repr sentatifs du contenu des documents indexer La terminologie doit galement faire tat de l ensemble des variantes pouvant tre rencontr es Toutes les r gles d in dexation doivent tre explicit es selon la t che effectuer La r daction des documents doit aussi tre pr cise et comporter un minimum de formulations ambigu s ou complexes Comme le montrent certains corpus statis tiquement labor s pour l valuation de m thodes d indexation the Medical NLP Challenge les r sultats peuvent tre tr s impr ssionnants proches de 90 de F measure lorsque les documents sont bien r dig s Mais tout cela ne suffit pas pour une indexation automatique de qualit l outil doit tre capable de prendre en compte le contexte les l ments implicites et de lt raisonner gt sur des connaissances m dicales Enfin il lui faut encore tre capable de synth tiser les informations recueillies et reconnaitre ce qui est important de ce qui ne l est pas Tout cela laisse penser qu une bonne indexation enti rement automatique est
191. contexte d application gt peuvent tre cr s Par exemple une contre indication a comme contexte une indication ou un terrain dictionnaire des conditions une pr caution d emploi a comme contexte une indication Comme nous avons pu le voir pr c demment il est possible d indexer des infor mations d une rubrique du RCP dans une rubrique diff rente exemple le terme lt contre indiqu en cas d intol rance g n tique au galactose gt issu de la rubrique Pr caution d emploi du RCP sera index e avec le type contre indication L origine de la rubrique est alors mise en commentaire Il est galement possible en cas de n cessit d indexer une propri t clinique absente du RCP ou de ne pas retenir des termes pr sents dans le RCP L indexation se fait dans l ordre du RCP et doit contenir au moins une occurrence 42 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation de chaque type Si aucun terme ne convient pour une rubrique un nouveau terme doit tre cr manuellement et valid par le gestionnaire de th saurus Avant toute indexation et afin de maintenir une homog n it par famille il est n cessaire de conna tre l indexation des autres sp cialit s de la m me classe th rapeutique ainsi que les sp cialit s index es par les indications contre indications du m me groupe En cas de besoin chaque indexeur responsable de l indexat
192. coup de temps Enfin CISMeF est devenu l un des leadeurs dans la conception de moteurs de recherche intelligents dans le domaine m dical Son expertise et son exp rience sont sollicit es dans la conception de moteur de recherche sp cialis s pour des quipes 26 Portail accessible ici http doccismef chu rouen fr servlets PIH 27 Accessible via http www umvf org 28 On rappelle que l quipe CISMeF est localement situ e au sein du CHU de Rouen 10 Chapitre 1 Contexte Section 1 3 Contexte scientifique de Recherche et des industriels Ainsi l arriv e du dossier patient lectronique dans les hopitaux a entrain une r elle demande tant pour la structuration que pour la recherche d information au sein du dossier patient 1 3 2 Produits et centres d int r t de la soci t Vidal 1 3 2 1 Du papier l lectronique Tout commence au d but du XXe si cle les m decins prescrivent alors des lt pr parations magistrales gt que les pharmaciens confectionnent la demande Face au succ s de certaines pr parations des pharmaciens pensent fabriquer l avance certaines formules qu ils proposent directement aux malades et qu ils font conna tre en ins rant de la publicit dans des quotidiens L industrie pharmaceutique com mence merger C est dans ce contexte que Louis Vidal cr des fiches pharmacologiques d crivant les m dicaments fabriqu s de fa on industrielle et diffuse c
193. ct re et des gt exemple M45 4 S82 00 E10 8A Les chapitres groupes et sous groupes sont repr sent s par un code de type intervalle entre les deux cat gories les plus extr mes qu ils contiennent Par exemple le chapitre 4 est cod par E00 E90 Tout code possible de la CIM10 entre A00 00 et Z99 99 39 En anatomie un appareil est un ensemble d organes dont le fonctionnement concourt une t che commune complexe exemple appareil digestif 40 Toutefois de nombreux pays exigent le niveau suivant 4 caract res comme niveau minimum de codification c est le cas de la Suisse par exemple 49 Chapitre 2 Etat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation n est pas un code valide Ainsi la CIM10 inclus 19 155 codes alphanum riques et 31 222 termes un terme dit lt syst matique gt des descripteurs ventuels qui d crivent le terme syst matique auquel ils sont associ s voir figure 2 11 Terme syst matique J00 Rhino pharyngite aigu rhume banal Conyza aigu Khinite aigu infectieuse Les descnpteurs Rhino pharnaite AI iS infectieuse SAT I Rhinorrh e aigu FIGURE 2 11 Extrait de la classification CIM10 pr sentant un terme syst matique accompagn de ses descripteurs des r f rences certains termes syst matiques peuvent faire r f rence a des tableaux ou textes Exemple le terme syst
194. d obtenir pour chaque terme la rubrique correspondante qui correspondra pour nous au type du terme voir section 2 4 2 2 A chaque terme de la rubrique lt Indications gt est associ le type indication lt INDIC gt 137 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es A chaque terme de la rubrique lt Contre indications gt est associ le type contre indications lt CI gt A chaque terme des rubriques lt Effets ind sirables gt et lt Surdosage gt est associ le type Effets secondaires lt EII gt A chaque terme des rubriques Pr cautions et Mise en garde gt et Conduite et utilisation de machine gt est associ le type Pr cautions d emploi lt PE gt Nous avons ainsi pu calculer la pr cision et le rappel en comparant cette indexation produite automatiquement avec l indexation manuelle TUV obtenue apres transco dage Nous avons mesur la pr cision et le rappel en consid rant diff rentes cat gories chaque type de terme s par ment indications contre indications effets secon daires pr cautions d emploi Les codes TUV assign s automatiquement la rubrique lt indications gt donc au type lt INDIC gt sont compar s aux codes TUV assign s manuellement un RCP avec le type lt INDIC gt en consid rant tous les types de terme somme de la pr c dente valuation en ne tenant pas compte des types de
195. dant la requ te lt Agranulocytose mc et recommandations tr gt Le bouton de recherche d information a aussi t d velopp pour la fiche de synth se qui r capitule pour un patient l ensemble de ses s jours l h pital avec les codes diagnostics et actes m dicaux associ s voir figure A 13 Le deuxi me bouton quant lui permet d acc der d autres sites de qualit en sant voir page web figure A 14 class s par cat gories et langues Chaque lien vers un site sp cialis donne l acc s direct la page contenant tous les documents pertinents correspondant au diagnostic d int r t la requ te ayant t traduite auto matiquement 203 Chapitre A Annexes Section A 5 D monstration FIGURE A 12 Page CISMeF avec les listes des documents correspondant la requ te lt troubles mentaux mc et mat riel p dagogique tr gt b Le Le LE 2 x e FIGURE A 13 Acc s la fiche de synth se appel e fiche r capitulative dans le DEP et la fiche de synth se avec le bouton CISMeF pour les diagnostics de s jour tableau du milieu 204 Chapitre A Annexes Section A 5 D monstration er CEE xplor Oresme D ones a ee em LU Adresse http flocalhost stenvvs onglets php champiagranuocytoseBonglet Ieitem reco FPT intranet aca FIGURE A 14 Page Web contenant les principaux sites de recherc
196. de 1 300 000 de relations dans sa version 2007 4 2 4 valuation de l extraction de termes MeSH pour les sites Web Nous avons ensuite proc d l valuation de F MTT dans le cadre de l indexation de documents dans CISMeF Pereira08c en utilisant l algorithme du sac de mots 4 2 4 1 M thode d valuation Comme nous l avons vu pr c demment l indexation automatique des documents en MeSH dans CISMeF est r alis e sur le titre des documents par un outil utilisant un algorithme de sac de mots proche de celui de F MTI N v ol07b Nous avons voulu 131 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es ici montrer la plus value de l utilisation de F MTI pour r aliser cette indexation Pereira08d Nous avons valu quelle tait la m thode de normalisation lemmatisation ou d suffixation de mots la plus adapt e notre probl matique Nous avons valu aussi l apport de l approche multi terminologique 4 2 4 2 Le corpus d valuation Pour r aliser cette valuation nous avons extrait l ensemble des ressources CIS MeF index es manuellement dans le catalogue soit 18 804 ressources en 2007 Nous avons choisi de constituer un corpus cons quent repr sentatif de l activit de CIS MeF Les indexeurs avaient lors de l int gration des documents du corpus dans le catalogue enregistr pour chacun en base le titre les types de ressource ai
197. de au transcodave 4 4 2444 da 644A ae Let de ke Lu 157 5 8 1 SSCAM NIEGE 6 0 a Noe ee EN Er are LUN RE RES EI 157 5 8 2 Evaluation 22 ed 6 ed eue de we ee eee 158 5 8 3 DISCO ER ve a we hg ae ee ew eee we ae Y 159 5 9 F MTI multilingue 2 4 0444 eee So eee ee we we ee ee 161 5 10 Conclusion ss sara A pe a Do Ss ee ee 161 6 Discussion 162 6 1 Discussion g n rale des r sultats obtenus 162 6 2 D o l importance de 26442444424 4 4 b4 4 4444484 163 6 3 Diff rentes m thodes LL Ow Ge GAR A ee ee Ee SYS 164 64 Comparaison d arbres outils 4 4 4 Gs 4 4 a 64 Oe 6 4e AS 164 6 0 Perspectives uc ea ck ew se Bake p er re D p eee Paw wk 165 6 5 1 Am lioration de l outil 2424 44 44244 24 5 4 4 165 6 5 2 Poursuite des traval 24440 4e eu deb RR pue RRS 165 6 5 3 Ouverture importante pour les diff rentes quipes 165 Chapitre 0 TABLE DES MATI RES Section 0 0 TABLE DES MATI RES 6 5 4 Vers d autres projets communs 167 III Contribution l acc s aux connaissances 168 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances 169 Tel Introduction sse ss oo boria eet ee BAe eM Red 169 7 2 Acc s contextuel la connaissance partir du dossier patient 170 7 2 1 Acc s aux connaissances partir du dossier patient 170 7 2 2 Acc s contextuel 64 Bod na Sooke Ha EE 171
198. des mises au point Les entr es du dictionnaire de constituant pour ce terme sont angine angine de poitrine s v re 411 CC pe PHR TUV 1 angines angine de poitrine s v re 411 CC pe PHR TUV 1 poitrine angine de poitrine s v re 411 CC pe PHR TUV 1 poitrines angine de poitrine s v re 411 CC pe PHR TUV 1 s v re angine de poitrine s v re 411 CC pe PHR TUV 1 s v res angine de poitrine s v re 411 CC pe PHR TUV 1 aigu angine de poitrine s v ere 411 CC pe PHR TUV 1 aig e angine de poitrine s v re 411 CC pe PHR TUV 1 angor angine de poitrine s v re 411 CC pe PHR TUV 2 Une premi re version du dictionnaire des constituants des termes a t r alis e Celui ci ne contient que les constituants de 1 mot et les constituants quivalents aux termes Afin de d finir les constituants de 1 mot nous avons r pertori pour nos cinq terminologies tous les lemmes associ s et leurs variations flexions et synonymes gr ce l analyse des dictionnaires existants voir section 3 8 2 3 Dans l avenir une deuxi me version contiendra les constituants de plus de 1 mot et de poids sup rieur 1 Ceux ci peuvent tre obtenus en cherchant les inclusions dans les lexiques dont nous disposons 3 8 3 2 Indexation l aide du dictionnaire de constituants L indexation des phrases d un ensemble de documents par le dictionnaire de constituants consiste appliquer grace au logiciel NooJ le dictionnaire de cons
199. des suffixes verbaux traitement des suffixes r siduels traitement des formes particuli res traitement des caract res doubles et des accents Pour chaque tape une liste de r gles est appliqu e d pendant d une ou plusieurs conditions Ici aussi les conditions sont particuli res Les auteurs prennent en compte 3 r gions pour un mot RV R1 et R2 RV est le mot R1 est la r gion apr s la premi re non voyelle suivie d une voyelle ou la fin du mot R2 est l quivalent de R1 pour R1 Par exemple pour le mot lt fameusement gt RV lt fameusement gt R1 lt eusement gt et R2 lt ement gt Les conditions portent sur ces r gions sur leurs pr sences ou les caract res les pr c dant ou les suivant voir exemple figure 4 3 De la m me fa on ici l ordre des tapes est tabli pour que ce soit le suffixe le plus long qui d termine la r gle appliquer Celui ci a t choisi car il est utilis dans des travaux en cours chez Vidal il a donc paru int ressant de le comparer aux autres pour mesurer l impact des diff rents algorithmes 3 Lucene est un moteur de recherche libre crit en Java qui permet d indexer et de rechercher du texte C est un projet open source de la fondation Apache mis disposition sous licence Apache Il est galement disponible pour les langages Ruby Perl C PHP Pour plus d informations voir http lucene apache org 116 Chapitre 4 Evaluation de l indexeur multi termin
200. dexation CIM10 t com par e a celle de l outil industriel SnoCode La m me valuation sur 100 comptes rendus a montr une pr cision et un rappel de 26 et 49 La m dication est directement corr l e aux diagnostics du patient Une tude a port sur l utilisation de la m dication pour l indexation de code CIM10 Pour chaque m dicament prescrit les liens m dicament gt groupe d indication gt code CIM10 fournis par la soci t Vidal ont permis l extraction de nombreux codes CIM10 potentiels Ces codes CIM10 sont hi rarchis s grace a une m trique labor e lors de cette tude afin de ne garder que les plus probables L valuation sur 100 comptes rendus a montr un rappel de 60 au rang 0 et 28 au rang 20 et une pr cision tr s faible de 3 65 Etude que j ai men pendant mon stage de DEA avant la cr ation de F MTI 69 Chapitre 2 tat de l art Section 2 5 Aide l indexation 2 5 3 2 2 Medical Text Indexer MTI Medical Text Indexer MTI Aronson00 permet l indexation semi automatique en MeSH anglais des articles anglophones de MEDLINE Dans le cadre de MEDLINE il traite les titres et les r sum s des articles Il peut aussi indexer en texte int gral L indexation automatique produite est propos e l indexeur qui clique alors sur les termes qu il d sire garder Il associe 3 approches une approche de Traitement Automatique de la Langue Naturelle impl ment e dans le syste
201. dicaments M thodes Association Rules Decision Trees FIGURE 5 7 Principes du projet Certains h pitaux ne poss dent pas de CPOE et quand il existe les donn es structur es du dossier patient contenant des informations sur les prescriptions dis pensations et administrations de m dicaments aux patients sont incompl tes Il est soulign que les outils de data mining donneront de meilleurs r sultats si les donn es au d part sont structur es et standardis es dans un langage commun C est partir de ce constat que l quipe CISMeF et la soci t Vidal ont d cid d utiliser l outil F MTI afin de compl ter et de standardiser ces donn es l aide de terminologies adapt es et de d velopper le module Semantic Mining du projet PSIP Les connaissances extraites du Semantic Mining seront revers es en entr e des outils de Data Mining 30 Il est vraissemblable que je continue travailler sur F MTI dans le cadre du projet PSIP 156 Chapitre 5 Applications du F MTI Section 5 8 Aide au transcodage Dans cet objectif il sera ajout aux terminologies existantes dans F MTI les terminologies fran aises et danoises suivantes les noms des sp cialit s ainsi que les noms commerciaux les codes ATC et les INN International Nonproprietary Name DCI Ce travail est en cours de r alisation par S Skaji I Kergourlay avec mon aide au sein de l quipe CISMeF Ces donn es sont fournies par
202. documents nous permet d extraire les variantes lt diminution des facteurs de la coagulation gt et lt diminution du facteur de coagulations Ces variantes d couvertes dans le corpus pourront venir compl ter le dictionnaire de terme avec les entr es suivantes diminution des facteurs de la coagulation diminution des facteurs de coagula tion 14434 CE ETAT ANOMALIE DES EXAMENS DE LABO TUV diminution des facteurs de la coagulation diminution des facteurs de coagula tion 14434 CE ETAT ANOMALIE DES EXAMENS DE LABO TUV 3 8 2 4 Constitution des transducteurs Un ensemble de 33 719 termes provenant du Vidal termes concepts variantes et synonymes TUV ainsi que les termes de recherche et les groupes d indication a t trait La constitution d un transducteur dans le logiciel NooJ s effectue manuellement Afin de traiter notre ensemble important de termes nous avons d velopp une m thode automatique permettant de g n rer les 33 719 transducteurs voir figure 3 15 Les termes sont dans un premier temps trait s par l algorithme du sac de mots afin de d finir la liste des lemmes pour chacun Pour chaque terme un fichier fi chier terme est cr automatiquement contenant l ensemble des lemmes Le nom du fichier contient la taille du sac de lemmes ainsi que l identifiant du terme TUV exemple 3 1223 txt Nous avons ensuite cr manuellement 12 transducteurs g n riques d pendants du nombre de lemmes voir
203. e C t 72 qui devient en 1993 C t 93 la SNOMED version 3 5 appel e aussi SNOMED Internationale no menclature pluri axiale couvrant tous les champs de la m decine et de la dentisterie humaine ainsi que de la m decine v t rinaire Un remaniement de la SNOMED 3 5 avec ajout de descriptions formelles a t effectu afin de cr r une terminologie de r f rence la SNOMED RT Reference Terminology en 1998 Spackman97 se rapprochant d avantage d une ontologie for melle Enfin la SNOMED CT Clinical Terms est le r sultat de la fusion de la SNOMED RT version 1 1 et de la SNOMED Clinical Terms version 3 Read Codes de la NHS du Royaume Uni La SNOMED CT CAP06 est congue pour simplifier la saisie et la re cherche de concepts cliniques au sein de syst mes d information lectroniques et pour faciliter leurs communications Son objectif est de rendre les connaissances de soins de sant plus accessibles toutes les sp cialit s m dicales Elle contient plus de 400 000 codes plus d un million de descriptions et un r seau s mantique constitu de 1 500 000 relations s mantiques que la SNOMED 3 5 ne poss de pas La SNOMED CT est actuellement la nomenclature officielle de la m decine clinique aux Etats Unis et dans d autres pays anglosaxons Angleterre Australie Nouvelle Z lande Royaume Uni Australie Lituanie Utilis e dans 38 pays Allemagne Portugal Su de Chine etc elle est traduite en anglais allem
204. e le terme lt Angine de poitrine sans autre pr cision de code A10 0 peut tre inscrit dans le document parmi ces nombreuses formes sous la forme lt angine de poitrine gt Si le mot lt pr cision gt est retenu dans le sac de mot du terme A10 0 avec les mots lt angine gt et lt poitrine gt alors l appariement avec une phrase contenant la notion d angine de poitrine pourra tr s rarement tre obtenu puisque tous ces l ments ne pourront tre retrouv s que dans de rares cas ensemble dans la m me phrase L ex pression lt sans pr cision gt doit donc tre automatiquement limin e des termes Ces expressions qui permettent de pr ciser le sens d un terme au sein d une terminolo gie mais qui emp chent leurs indexations doivent tre limin es des termes avant la 84 Chapitre 3 Conception de l extracteur multi terminologique Section 3 5 Cr ation de libell s d indexation cr ation des sacs de mots correspondants Nous avons ainsi cr des libell s secon daires dits libell s d indexation qui comprennent les libell s d origine ainsi qu un plusieurs libell s alternatif s exemple les libell s d indexation de A10 0 sont lt angine de poitrine sans autre pr cision et lt angine de poitrine gt Ce sont ces li bell s qui sont pris en compte par les trois m thodes d indexation Nous avons identifi diff rents types d expressions traiter Les l ments de classification tels
205. e tt Aim Fichier Edition Format Affichage 7 Action Recorder s quence enregistr Copier coller lemmes Enregistrer sous NbLemme_Code_Terme nog Fermer NOOJ FIGURE 3 15 Constitution automatique des transducteurs 22 Enregistrement des actions de la souris et du clavier 23 Voir http www maxxiweb com logiciel utilitaire divers action recorder 24 WinMacro simule des actions courantes de l utilisateur telles que la saisie au clavier ou le positionnement des fen tres Il prend en charge des t ches plus complexes telles que la copie de fichiers Plus d une cinquantaine d actions sont disponibles L int r t du logiciel est qu il permet de modifier le code source d une s quence enregistr e voir http www 01net com telecharger windows Utilitaire planificateurs_et_lanceurs fiches 1452 htm1 102 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point 3 8 2 5 Corpus utilis s Les transducteurs ont t appliqu s grace au logiciel NooJ sur un ensemble de documents afin de r cup rer de nouvelles variantes potentielles Le corpus devait tre compos de documents m dicaux et tre assez volumineux pour pouvoir ex traire de nombreuses variantes Les documents devaient tre aussi de qualit pour ne pas r cup rer de mauvaises variantes avec des fautes d orthographes ou des formes inconnues du jargon m dical entr es par les auteurs
206. e 1132 2007 A 9 Autres communications Pereira08 Pereira S Serrot S Joubert M Darmoni S J Extraction de concepts multi terminologiques Journ e des doctorants LITIS 2008 Pereira07 Pereira S Darmoni S J Diffusion et mise en oeuvre des recommen dations de pratique clinique Les GBP des textes essentiellement cours de Master sant publique universit Paris 5 2007 Pereira07 Pereira S Serrot S Joubert M Darmoni S J Extraction de concepts multi terminologiques S minaire CISMeF 2008 Pereira07 Pereira S Serrot S Joubert M Darmoni S J Extraction de concepts multi terminologiques du dossier m dical Journ e Serveurs de terminolo gies m dicales pour le codage du dossier patient mythes et limites gt 2007 N v ol07 N v ol A Pereira S Lortal G Darmoni S J Using NooJ for the analysis of medical text NOOJ2007 225 Chapitre A Publications personnelles Section A 12 Rapports Pereira05 Pereira S N v ol A Massari P Darmoni S J Evaluation de plu sieurs terminologies m dicales pour optimiser l aide au codage m dico conomique par analyse automatique de dossiers lectroniques de patient Sant Publique Lille 2005 A 10 Rapports Pereira08 Pereira S Comparaison des serveurs de terminologies existants Rap port interne Vidal 2008 Dahamna07 Dahamna B Pereira S Darmoni S J Fiche de proposition de sujet PIC INSA de Rouen 2007 A 11 Valorisation
207. e A Emai ta En es ager uobng and Macs Medias 2 Gui dit efumers ate Trormeneoiveed SO Local Contents of this page 2472005 United BikeGh onicte said els Gite Cereus Drome sant pions Press htemosenot Hoe fum e de cigaretie tenta i 4 ws t econdhaud Smoke in yours FIGURE 7 9 Recherche d information translangue sur le site MedlinePlus 6 2 afin d aider les patients comprendre et rechercher de l information sur les donn es lectroniques les concernant CISMeF n est pas le seul site proposer ce genre de recherche translangue Les outils PICO et BabelMeSH permettent une recherche translangue pour MED LINE Pubmed en plusieurs langues espagnol fran ais portugais japonais italien allemand et russe Liu06 Fontelo07 7 6 Discussion Conclusion Nous avons cr plusieurs acc s contextuels Un acc s de type lt InfoButton gt partir du dossier patient vers des bases de connaissances sur l Internet donnant aux utilisateurs un acc s lorsqu ils en ont besoin de l information disponible et adapt e leur profil patient m decin ou tudiant L outil d velopp a t mis en place au CHU de Rouen valoris aupr s de l Universit et vendu une soci t Un deuxi me acc s de type lt vue gt a t con u au sein du dossier patient afin de filtrer les diagnostics et actes pour un patient en fonction de la sp cialit m dicale int ressant l utilisateur L
208. e Bee ee S 119 4 2 3 valuation de l extraction de termes SNOMED pour les dos Siers patlents ake ask ee ee ee nimes a 127 4 2 4 Evaluation de l extraction de termes MeSH pour les sites Web 131 4 2 5 valuation de l extraction de termes TUV pour les RCP 137 4 3 Conclusion amp rs LRU a es Bh ee ee oo we en 140 5 Applications du F MTI 141 5 1 Introduction s lt s cropa dra Bet Bes Bo eee SE Ee o Da Co 141 5 2 Applications pour l indexation semi automatique de RCP BIBLIS 141 5 2 1 Pr sentation de l outil BIBLIS 141 5 2 2 Int gration de F MTI dans l outil BIBLIS 143 5 2 3 Evaluation de l apport de BIBLIS et de F MTI via BIBLIS l indexation humaine 4 4 4 46 ve ie me nu 144 5 3 Indexation automatique de dossiers patients 144 5 3 1 Aide au codage pour le recueil de donn es m dico conomique 144 5 3 2 Structuration des informations du dossier patient 145 5 3 3 Production de r sum s et r daction assist e de documents 147 5 4 Indexation automatique de ressources Web 149 5 5 Outil d aide l indexation g n raliste 151 5 5 1 Interface adapt e 2 os Lady Sa ee we EROS eS aE 151 5 5 2 Perspectives 44 es 6 he we ee ce Be wm Gm 153 5 6 Int gration a un serveur multi terminologie 153 5 7 Optimisation de la prescription informatis e PSIP 155 5 8 Ai
209. e CISMeF travaillent sur des probl matiques proches s curisation de la pres cription structuration de contenus indexation cr ation et enrichissement de termi nologies recherche d information Ils ont galement collabor sur de m mes projets les projets VUMeF et UMLF Apr s avoir interrog les diff rentes quipes sur leurs besoins il nous a sembl que l indexation tait au coeur des demandes et devait tre le coeur de cette th se Cette indexation pour les besoins de chacun est appliqu e diff rents types de documents sites Web RCP dossiers m dicaux l aide de diff rentes terminologies dans diff rents domaines L objectif de notre th se est de mettre en oeuvre des m thodes et de develop per des outils susceptibles d apporter une r ponse aux besoins d crits ci dessus et de s tendre d autres applications Cette indexation doit permettre une meilleure recherche d information au sein du catalogue CISMeF avec une indexation automa tique et semi automatique des sites Web permettant de recenser dans le catalogue plus de documents plus rapidement Elle doit par ailleurs permettre d am liorer la re cherche d information au sein des dossiers lectroniques des patients ainsi que d aider les m decins produire les codages m dico conomiques utiles au calcul des budgets des h pitaux Enfin elle doit optimiser au sein de l outil BIBLIS chez Vidal l indexa tion des RCP pour l aide la prescri
210. e d suffixation voir section 4 2 1 l algorithme de CISMeF l algorithme 10 En effet entre les usages actuels gt et lt les bons usages gt des majuscules il existe de grandes diff rences comme le montre cet article http perso univ lyon2 fr poitou Typo t03 html 95 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point de Carry Paternostre02 et le FrenchStemmer de Lucene Cutting04 Une alternative la d suffixation est la lemmatisation La lemmatisation d un mot consiste a en prendre sa forme canonique pour un verbe ce verbe est mis a l infinitif pour les autres mots le mot est mis sous la forme masculin singulier 1 Ici lt passe gt et lt passes gt ont le m me lemme lt passe gt Dans l autre cas lt passer gt lt passa gt et lt passant gt sont assign s au lemme passer Les outils permettant la lemmatisation doivent dans un premier temps d finir les donn es lexico syntaxiques du mot avant d tre en mesure de d terminer le lemme de ce mot Nous utiliserons dans cette cat gorie le S miographe de la soci t M modata Selon la m thode les accents peuvent tre limin s ou gard s Lorsqu ils sont pris en compte ils permettent de discriminer des mots de sens diff rents exemple lt sur gt et lt s r gt Lorsqu ils sont limin s ils permettent de rapprocher certaines formes telles un adjectif et un nom ou une
211. e diagnostics Pour les comptes rendus de Pneumologie restreints aux termes reli s la sp cialit lt pneu mologie gt la pr cision obtenue est de 51 3 et le rappel de 75 4 pour l extraction de diagnostics L indexation des sympt mes dans le secteur de la Cardiologie montre une pr cision de 41 0 et un rappel de 96 1 voir figure 4 10 Dans le secteur de la Pneumologie nous avons une pr cision de 39 3 et un rappel de 97 5 La derni re valuation a t effectu e sur 100 comptes rendus index s de mani re m dico conomique par les m decins et de mani re descriptive par un expert Les 122 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es CARDIO PNEUMO Nombre de digits Pr cision Rappel Pr cision Rappel pris en compte 41 0 FIGURE 4 10 M me valuation en ne consid rant que les sympt mes Indexation Indexation m dico conomique descriptive Nombre de digits Pr cision Rappel F measure pris en compte FIGURE 4 11 R sultats de l valuation de l indexation automatique produite par F MTI compar e aux indexations humaines m dico conomiques et descriptives des 100 lettres de sortie r sultats montrent une pr cision de 2 6 et un rappel de 38 0 voir figure 4 11 compar une indexation m dico conomique et une pr cision de 3 7 et un rappel de 32 9 par rapport une indexation descriptive 4 2 2 5 Di
212. e gt ou lt de gt Une expression et un terme sont dits quivalents s ils sont morphologiquement quivalents compositions en lemmes gales ou d riv s compositions en radicaux ou racines gales ou proches au niveau de leurs cha nes de caract res ou phon tiquement quivalents ou sont synonymes ou ont de fortes probabilit s d tre quivalents des cription en N grammes quivalente Relier les formes fl chies exemple asthme asthmes et les formes d riv s exemple asthme asthmatique leurs lemmes ou mots de base accroit la puissance et la soupplesse de l appariement de termes La d suffixation consiste enlever un mot son suffixe Tous les mots d riv s obtiennent le m me radical Exemple diab tique diab te diab tes ob tiennent le m me radical lt diab t gt Les algorithmes de d suffixation les plus c l bres pour l anglais sont les algorithmes de Porter Porter80 et de Lovins Lovins68 Pour le fran ais il existe l algorithme de Carry Paternostre02 le Frenchstemmer de Lucene utilis dans les moteurs de recherches sur Internet et l outil EDA de Nakache Nakache07 La racinisation consiste obtenir partir d un mot sa racine Une racine est obtenu en l minant tout prefixe affixe et suffixe d un mot La phon misation consiste interpr ter phon tiquement un mot Odell18 La distance de Levenstein mesure la similarit entre deux cha
213. e m dicale g n raliste qui constitue les bases de la terminologie CISMeF et pour d autres terminologies telles que la CIM10 la SNOMED et la CCAM L quipe CISMeF fait voluer jour apr s jour sa terminologie Douy re04 elle participe aussi avec d autres quipes des projets collaboratifs Ainsi l quipe CISMeF a parti cip en collaboration notamment avec l quipe du LERTIM et la soci t Vidal aux projets UMLF Zweigenbaum03 et VUMeF Darmoni03b de 2003 2007 dont le but tait d enrichir les terminologies m dicales fran aises dans PUMLS CISMeF a aussi collabor avec la soci t Memodata PME sp cialiste des dictionnaires en vue d enrichir le catalogue de nombreuses d finitions et traductions en plusieurs langues D autres travaux ont aussi t men s pour mieux comprendre le langage m dical cou rant utilis par les usagers non sp cialistes du domaine dans l laboration de leurs requ tes Darmoni02a Des travaux pour faciliter la recherche des utilisateurs ont aussi t effectu s un dialogue homme machine actuellement a l tude avec le projet Cogni CIS MeF Loisel07 et une recherche d information implicite avec le syst me KnowQuE Knowledge based Query Expansion Soualmia03 Soualmia04 L indexation d une ressource l aide de mots cl s est la base de la recherche d information dans le catalogue C est l une des t ches les plus importantes et mal heureusement la
214. e passif gt ac compagn d un lien contextuel permettant l utilisateur d tendre sa recherche aux documents index s par le terme MeSH lt secondhand smoking gt dans MedlinePlus voir figure 7 9 La m thode appliqu e facile r aliser utilise des donn es existantes Cette m thode est une m thode g n rique qui pourrait tre appliqu e d autres langages comme l espagnol et le chinois Lu05 qui poss dent des termes patients rattach s au MeSH Pour l anglais une m thode d extraction partir de corpus parall les tech niques et didactiques permettent de d finir des synonymes en langage courant pour les termes de l UMLS Elhadad07 Salton a montr que la traduction d une requ te anglais vers allemand montre une performance lev e en mati re de recherche d information similaire un syst me monolangue Salton73 Les m thodes de traduction de requ te que nous avons propos es sont bas es sur des th saurus multilingues Une tude a montr que le thesaurus MeSH donnait de meilleur r sultats en terme de traduction automatique de requ te Ruch04 avec une meilleure d sambiguisation de termes difficiles D autres m thodes existent comme la traduction automatique de requ te utilisant des dictionnaires ou des m thodes bas es sur des corpus Des travaux ont montr qu une combinaison de ces deux m thodes peut am liorer les performances ou extraction de nouvelles traductions D jean05 Notre
215. e phrase le point Une phrase peut contenir n importe quel mot lt WF gt des nombres lt NB gt certaines ponctuations except lt gt qui constituent un signe de fin de phrase lt P MP lt 3 7 Un transducteur est un patron d extraction 8 NooJ a repris et am lior les fonctionnalit s d INTEX NooJ est un environment de d veloppement linguistique qui inclut des dictionnaires et des grammaires et peut traiter des cor pus en temps r el Il permet aux utilisateurs de cr er leurs propres dictionnaires et leurs propres grammaires ainsi que des patrons d extraction ou transducteurs syntaxiques ou morphologiques Il est t l chargeable via http www NooJ4nlp net 89 Chapitre 3 Conception de l extracteur multi terminologique Section 3 7 Les unit s d indexation lt WF gt lt NB gt lt P MP 7 gt FIGURE 3 7 Sous graphe des sigles r alis avec le logiciel NooJ gt gt des caract res sp ciaux comme le des exceptions La fin d une phrase peut tre marqu e par une ponctuation de fin de phrase un point point virgule point d exclama tion point d interrogation guillemet point sauf si elle est suivie d un mot 90 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point Me Prof Pr Ph FIGURE 3 9 Sous graphe des abr viations r alis avec le logic
216. e rendu 128 valuation des recouvrements des codes SNOMED extraits par les deux GUS bie sea sa s s poa Se ees Boe Bae eee 129 Comparaison des deux outils avec et sans le m me transcodage CIM10 129 Performances du F MTI mono terminologie compar l indexation manuelle sur les diff rents corpus 134 Performance de F MTI mono terminologie compar l indexation ma nuelle sur les diff rents corpus 134 R sultats de l valuation de l extraction de termes TUV partir d un corpus de RCP 2 224 5224 eek eee Ee RGR we EEG hE 138 Interface de l outil d indexation semi automatique BIBLIS 142 Interface Word avec int grationd du bouton F MTI 145 Maquette d une interface pour la pr sentation de r sum s automatiques 148 Maquette d une interface pour le logiciel d aide l indexation multi terminologique LH eh awe we Se RAI RAR ehh ewe Es 152 Liste des principales terminologies m dicales en langue francophone int gr es au SMTM et les relations entre elles en rose terminologies non int gr es au m tathesaurus de lUMLS 154 Recherche sur le terme lt Acute myocardial infarction gt dans le SMTM 155 Principes du projet e eh oa uate 4 4 amp aw SS ee ee ee SS SG 156 R sultats de la comparaison entre le trancodage effectu par l expert et celui produit par F MTI oe amp eae eee eee we Ew 158 R sultats de la comparaison
217. e serveur de terminologie est accessible via l url http www churouen fr terminologiecismef 19 Base de donn es bibliographique en anglais accessible via http www ncbi nlm nih gov pubmed 20 CISMeF est conforme aux standards W3C http www w3c org XML qui permet une interop rabilit avec d autres moteurs de recherche OWL RDF Chapitre 1 Contexte Section 1 3 Contexte scientifique pour l acc s aux sites d di s aux tudiants aux patients ou aux moteurs de recherche g n ralistes Plus de 70 sites en anglais et en francais connus dans le domaine pour leur fiabilit ont t choisis et r f renc s et les requ tes correspondantes labor es En effet chaque site a des modalit s d interrogation diff rentes mode de recherche langage de requ te particulier que l quipe CISMeF a exploit au maximum afin de reformuler automatiquement dans le moteur de recherche cibl la requ te de d part de l utilisateur dans CISMeF Parmis ces sites se trouve notamment le moteur de recherche Google Compte tenu de la difficult de retrouver des documents de qualit sur ce site l tablissement d un partenariat Google CISMeF a permis de restreindre l acc s de Google une liste de sites de qualit s lectionn s par l quipe CISMeF pour le domaine m dical et pour les m dicaments 1 3 1 3 Les diff rents projets Autres Terminologies M dicales UMLF amp UMe L Shest F Charles am
218. e serveur de terminologies partir de la requ te sont rang s par ordre de pertinence par rapport la requ te un score d finit le pourcentage de couverture du terme par rapport la requ te attribution du type d indexation exemple lt INDIC gt pour lt indication gt au terme d indexation choisi le type portant le nom de la rubrique est propos en premi re intention cr ation du lien entre les termes d indexation et le fragment textuel du document contenant l information index e et sa localisation dans le RCP visualisation de la couverture du document trait visualisation de tous les fragments index s et de leurs positions dans le RCP cr ation des liens contexte d application gt il s agit d une mise en garde ou d une indication li e un terme index ajouts de commentaires possibilit de supprimer et d ajouter un terme de l indexation possibilit d indexer des tableaux possibilit de r utiliser les indexations de documents traitant de sp cialit s proches Les indexations de documents proches peuvent tre utiles 142 Chapitre 5 Applications du F MTI Section 5 2 Applications pour l indexation semi automatique de RCP BIBLIS pour l indexation d un nouveau document En effet le RCP peut tre un rectifi catif ou une reprise compl te d un RCP d une sp cialit pr c demment trait e Les documents consid r s comme proches doivent tre s l ctionn s manuelle
219. e toutes les relations qui peuvent exister entre deux termes d une m me terminologie Cette table a t inspir e par la table MR REL Related Concepts et MRHIER Computable Hierarchies de l UMLS Elle inclue les classes Hi rarchie Voir aussi Actions pharmacologiques du MeSH Assiociations m dicales et Hi rarchie de la CCAM Hi rarchie et R f rences de la SNOMED Hi rarchie Inclusions Dagstar et Exclu sions de la CIM10 et enfin Relation_concept du TUV Elle inclut galement toutes les relations s mantiques comprises dans l UMLS pour une m me ter minologie Les attributs Cette classe a la meme structure que celle des relations intra terminologiques L attribut attribut relation renseigne le type s mantique de la relation at tributs niveau pour les relations lt p re fils gt lt type_assoc gt du MeSH et lt ty pedag star gt de la CIM10 L attribut libell _associ indique le libell li a la relation Celui ci corres pond aux attributs libell pour les lt exclusions gt et lt dagstar gt de la CIM10 et les qualificatifs pour les lt actions pharmacologiques gt du MeSH Modifications apport es les relations exclusions exclusions syst matiques lt dagstar gt de la CIM10 lt r f rences gt de la SNOMED lt asso ciations m dicales gt de la CCAM lt regroupement gt de la CCAM voir aussi lt MT TR gt lt MT Ds lt MT Qs lt D Q gt actions pharmacologiques gt du MeSH ont t
220. eedings of the 3rd international conference on Knowledge Representation in Medicine KR MED 2008 118 Merabti T Pereira S Letord C Lecroq T Dahamna B Jou bert M Darmoni S Searching Related Resources in a Quality Controlled Health Gateway a feasibility Study Stud Health Technol Inform 2008 136 205 210 Min Z Baofen D Weeber M Van Ginneken A Mapping OpenSDE Domain Models to SNOMED CT Methods In Med 2006 4 9 Misset B Metais E Nakache D Dumont S De Lassence A Darmont M Garrouste Orgeas B Mourvillier M Adrie C 216 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Molino85 Moreaure Nachimuthu07 Nakache05 Nakache07 Namer00a Namer00b Neveol05 Neveol06 Neveol07 N v ol05a N v ol05b N v ol06 Pease S Costa de Beauregard M A Stocco C Reproducti bilit du codage in 33 me congr s de la SRLF Soci t de R animation de Langue Fran aise Cnit Paris 2005 Molino J O en est la morphologie Langages 1985 78 5 40 Moreau F Claveau V Pascale S Int grer plus de connais sances linguistiques en recherche d information peut il augmen ter les performances des syst mes Actes de la 4 me Conf rence en recherche d informations et applications CORIA 07 St Etienne para tre Nachimuthu S Lau L Practical issues in using SNOMED CT as a reference terminology Stud Health Technol Info
221. en TUV Nous avons pu montrer que les r sultats taient aussi diff rents selon la termi nologie d indexation consid r e Pour l indexation des comptes rendus m dicaux l algorithme du sac de mots a obtenu une pr cision de 3 4 et un rappel de 29 7 pour la CIM10 alors que pour la CCAM il n a pas t capable de produire d indexa tion pertinente Les r sultats d pendent du type de document formant le corpus Dans notre tra vail nous avions valu des corpus comprenant des ressources Internet des comptes rendus d hospitalisation et des RCP Les comptes rendus ayant t les plus difficiles indexer De plus des diff rences existent dans un m me corpus pour des types de documents diff rents Dans l tude sur le th saurus MeSH et le corpus CISMeF les r sultats ont t tr s diff rents selon le type de ressources tudi passant d une pr cision de 44 4 et un rappel de 25 7 pour les ressources p dagogiques une 162 Chapitre 6 Discussion Section 6 2 D ot l importance de pr cision de 39 9 et un rappel de 18 7 pour les recommandations Ils sont aussi diff rents pour diff rentes rubriques d un m me document Pour l indexation des RCP en TUV nous avions une pr cision de 28 4 et un rappel de 49 3 pour les pr cautions d emploi et une pr cision de 77 0 et un rappel de 59 4 pour les effets secondaires Enfin les r sultats d pendent de l objetif vis Pour l indexation des
222. en rouge une relation de composition lie un terme l mentaire un terme plus complexe Dans une terminologie du domaine m dical les concepts du domaine sont nor malis s et d sign s par des termes pr cis La terminologie peut aussi rendre compte 16 Il poss de un double sens et peut recevoir plusieurs interpr tations qui conviennent diff rentes notions 29 Chapitre 2 tat de l art Section 2 3 D finition de l indexation et du codage des relations qui peuvent exister entre les termes Les relations de sp cialisation g n ralisation permettent de hi rarchiser les termes du plus global au plus pr cis voir figure 2 2 Un terme plus pr cis poss de toutes les particularit s du terme global au niveau du sens plus d autres propri t s qui en font un terme plus sp cifique La d finition du terme peut tre d duite en partie par les liens que poss de le terme avec d autres termes Une d finition de chaque concept peut aussi tre fournie Une termi nologie tente de r duire au maximum les ambiguit s de sens gr ce sa structure A l int rieur d une terminologie les concepts peuvent tre d sign s par plusieurs termes diff rents synonymes Les terminologies peuvent tre multilingues chaque concept peut alors tre d sign par plusieurs termes chacun propre chaque langue Toutes les formes quivalentes sont regroup es sous le m me concept Les concepts peuvent aussi tre identifi
223. enbaum P Encoder l information m dicale des termino logies aux syst mes de repr sentation des connaissances Inno vation Strat gique en Information de Sant 1999 2 3 27 47 Zweigenbaum P Darmoni S Grabar N The contribution of morphological knowledge to French MeSH mapping for infor mation retrieval Journal of the American Medical Informatics Association 2001 8 suppl 796 800 Zweigenbaum P Baud R Burgun A Namer F Jarrousse E Grabar N Ruch P Le Duff F Thirion B Darmoni S UMLF construction d un lexique m dical francophone unifi In Actes des 10 Journ es Francophones d Informatique M dicale 2003 223 Publications personnelles A 6 Publications internationales a comit de lec ture Pereira08 Pereira S N v ol A Kerdelhu G Serrot E Joubert M Darmoni S J Using multi terminology indexing for the assignment of MeSH descriptors to health resources in a french online catalogue AMIA Annu Symp Proc in press 2008 Pereira06 Pereira S N v ol A Massari P Joubert M Darmoni S J Construc tion of a semi automated ICD 10 coding help system to optimize medical and econo mic coding Proceedings of MIE2006 Stud Health Technol Inform 2006 124 845 50 Massari08 Massari P Pereira S Thirion B Derville A Darmoni S J Use of super concepts to customize electronic medical records data display Stud Health Technol Inform 2008 136 845 850 Merabti08 Merabt
224. encore ce travail a t int gr au logiciel de gestion de dossiers patients du CHU de Rouen et vendu une soci t Un troisi me acc s de type lt approfondissement de la recherche gt qui permet un utilisateur lors d une recherche sur un moteur de recherche d acc der d autres documents afin d approfondir sa recherche sur d autres sites de qualit a t r alis Ce syst me a t mis en place sur le site VidalReco pour la recherche de recommandations de bonnes pratiques 183 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 6 Discussion Conclusion Un quatri me acc s de type CLIR a t labor pour aider les utilisateurs dans leur recherche d information dans une langue qu ils ne maitrisent pas compl tement Ce syst me a t mis en place sur le site CISMeF Ces acc s permettent des niveaux diff rents et dans des domaines bien pr cis d acc der lt la bonne information au bon moment et pour les bonnes raisons L acces lt la bonne information est r alis e en prenant en compte la demande de l utilisateur qui veut acc der une information sp cifique de qualit et qui est adapt e son profil son m tier son niveau de compr hension du domaine sa langue son pays d origine son niveau dans la pratique d autres langues L acc s lt au bon moment gt n cessite la mise en oeuvre de cet acc s un
225. endant ne sont pas codables soit 1849 termes L attribut second n est pas renseign il devra tre compl t A 2 4 Mod le de la CCAM ea Diagramme de chasses ls CCAM J code_CCAM_p re char code_CC AM cher code_CC AM char sr tere code CCAM _fils char code CCAM _assoccher code _activit int RER Coeft_assocint code_ext_dec char type_assoc int code_phase int sel phase int codes_m octcateurs int Code_assocint remboursement mt Ccode_CC AM char supp_chenge int code_MeSHicher eo_dentsint t type char Bbetl _longiint code_CCAM che poss de tbetl _courtint type d actent niveauint taritint C000 _CCAM char ententeint M tatemeschar gpmentint int stype_note char note char CCAM_MITCISMeF s A ents Incompes activit code_CC AM int code_moditcateur int code_rgpment int code_activit int Code_ext_cocint loc_dentint Hbell modificateur int tbetie_ropmentint 4bete_activit int Abel _ext _docmt EE E _ 5 FIGURE A 4 Diagramme de classes repr sentant la structure de la CCAM au for malisme UML Nous avons aussi labor le mod le de la CCAM voir figure A 4 Celui ci com porte 11 classes voici quelques indications Classe des Termes Cette classe d finit tous les termes de la classifica tion CCAM Quelques commentaires L attribut code_activit identifie 194 Chapitre A Annexes Section A 2 Mod l
226. ent 7 317 ressources supervis es et 14 752 resources index es automatiquement Ces m tadonn es proviennent de plusieurs r f rentiels dont 11 champs parmis les 15 du Dublin Core Dekkers03 Thirion04 et certains champs du IEEE 1484 LOM Learning Object Metadata avec sa version fran aise LOM FR ff Les m tadonn es HIDDEL ont aussi t introduites dans le cadre du projet europ en MedCircle Mayer03 4 L ajout d finitif au catalogue par la mise en ligne de la notice de la ressource En moyenne une cinquantaine de ressources par semaine sont index es manuelle ment et ajout es au catalogue Depuis l ann e 2000 Doc CISMeF l outil de recherche int gr au site CISMeF donne un acc s pr cis et rapide aux ressources Son interface permet l aide de requ tes saisies par l utilisateur d obtenir une s rie de documents susceptibles de contenir l information recherch e par celui ci c est ce qu on appelle la recherche do cumentaire L utilisateur n a plus qu s lectionner la ressource qu il d sire et recher cher lui m me l information qui l int resse l int rieur Ces ressources sont pr sent es par ordre chronologique et les ressources index es manuellement pr sent es en pre mier suivi des ressources supervis es et enfin de celles index es automatiquement Diff rents modes de recherche d information accessibles depuis la page d accueil de CISMeF voir figure 1 1 sont possibles
227. ent s c t de chaque code CIM10 et CCAM qui ont t renseign s par les m decins Nous avons appel le premier bouton le bouton lt CISMeF et le deuxi me le bouton lt plus d infos gt Les deux boutons d information contextuels et personnalis s ne sont visibles pour l utilisateur qu c t des termes CIM10 et CCAM pour lesquelles il existe une connaissance adapt e dans CISMeF ou sur un des sites de la page Web Pour contr ler cela nous avons ajout des colonnes dans la table de transcodage qui indiquent pour chaque terme MeSH issu du trans codage CIM10 et CCAM le nombre de ressources sp cifiques pour les tudiants les patients et le nombre de recommandations dans CISMeF Le principe sera le m me pour les cat gories des sites pr sents sur la page Web La contextualisation appliqu e est form e de 4 dimensions voir figure 7 2 l apparition des boutons se fait seulement apr s v rification du statut de luti lisateur et n est disponible que pour les patients m decins et tudiants le diagnostic demand doit aussi tre pr sent et sous la bonne forme le terme CIM10 ou CCAM doit tre transcodable en MeSH des documents appropri s pour l utilisateur doivent tre disponibles sur CIS MeF pour le premier bouton et sur au moins un des sites de la page Web pour le deuxi me S il est pr sent comme d crit pr c demment l utilisateur peut alors cliquer sur le bouton contextuel associ
228. entre le trancodage effectu par l expert et celui produit par F M 2 ee Lau ee eR Lee Awe Ee du 159 Nouvelle organisation des projets de l quipe CISMeF 166 229 Chapitre A TABLE DES FIGURES Section A 12 TABLE DES FIGURES 7 1 Extrait de la table de transcodage CIM10 MeSH int gr au DEP 7 2 Traitements r alis s pour d terminer l apparition des deux boutons 7 3 Traitements r alis s apr s avoir cliqu sur le bouton CISMeF ou l un des sites de la page Web na Lx Ge See ORE BSS d u DE RSS 7 4 Compte rendu d hospitalisation provenant du service de Cardiologie du CHU de Rouen avec le bouton CISMeF dans la barre d outil 7 5 Liens s mantiques entre les cuper concepts et les diff rentes classifica DOS a ee genet eae eee ete ue eee Gk eg ie wey Ee ee ee Ged 7 6 Recherche par sp cialit dans la fiche de synth se d un patient dans l logiciel QI os ees we ee Ee we es OO Pee ee ES 7 7 Site VidalReco Lis LL a ek we hee Ree Ra we ee 7 8 Cr ation de liens d quivalence entre les termes patients en anglais et CTP AMIGA Ia 98 cs Oh cee HR a A ee DEA 7 9 Recherche d information translangue sur le site MedlinePlus A 1 Description des champs de la table MRCONSO A 2 Description des champs de la table MRREL A 3 Diagramme de classes repr sentant la structure de la CIM10 au for malisme UME 2 SL eS dia ia Serie OS A 4 Diagramme de classes repr sentant la structure de
229. er hbelle char Jangue char SABi char source char m mo cher asse terme int ype char Hbell char argue char fiveau_hier char propri t s char codable char Altematives lexicales termes li par 1 Les relations intraterminologies aoe relation char relation2 char relation char attribul_re sion char code1 char ibel _sssoc char code2 char stype cher SAS char relation chvar attribut_retation char FIGURE 3 4 Diagramme de classes repr sentant le mod le g n ral au formalisme UML Classe des Termes cette classe r unie tous les termes de chaque termino logie Cette table a t inspir e de la table MRCONSO contenant les sources et les noms des concepts dans le Metath saurus de l UMLS Elle regroupe toutes les classes d crivant les termes pour chaque terminologie Termes de la CCAM Descripteur Qualificatif Type de ressource M taterme du MeSH Termes de la SNOMED et enfin Termes syst matiques Descrip teurs et Inclusions de la CIM10 Classe des Relations inter terminologies cette classe renseigne toutes les relations qui peuvent exister entre deux termes de terminologies diff rentes Cette table a t inspir e par la table MRREL Related Concepts de VUMLS Elle inclut les transcodages entres terminologies CCAM MeSH et CCAM_MTCISMeF voir section 5 8 1 SNOMED CIM10 TUV MeSH TUV CIM10 Elle int gre aussi toutes les relation
230. er O Using UMLS semantics for classification pur poses AMIA Annu Symp Proc 2000 86 90 207 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Bouaud02 Bouchet 99 Bourigault00 Brainbridge96 Bramsen06 Brill95 Briquet07 Burnage90 Campbell97 CA P06 Cavazza92 Chapman01 Chapman07 Bouaud J S roussi B Dr au H Falcoff H Riou C Joubert M Simon C Simon G Venot A ASTI un syst me d aide la prescription m dicamenteuse bas sur les guides de bonnes pratiques Informatique et Sant 2002 Bouchet C Comment choisir un outil d aide au codage Le magazine de la m decine lectronique MEDCOST 1999 Bourigault D Fabre C Approche linguistique pour l analyse syntaxique de corpus Cahiers de grammaire 2000 25 131 151 Brainbridge M Salmon P Rappaport A Hayes G Williams J Teasdale S The Problem Oriented Medical Record just a little more structure to help the world go round Pro ceedings of the Annual Conference of The Primary Health Care Specialist Group of the British Computer Society 1996 http www phcsg org main pastconf camb96 mikey html Bramsen P Deshpande P Keok Lee Y Barzilay R Finding Temporal Order in Discharge Summaries AMIA Annu Symp Proc 2006 81 85 Brill E Transformation based error driven learning and natural langage processing A case study in part of speech tagging Computational Linguistic
231. er00 Friedman 04 Fujii07 Fung05 Funk83a Fayet Scribe97 Ely J Osheroff J Chambliss M Ebell M Rosenbaum M Answering physician s clinical questions obstacles and poten tial solutions J Am Med Inform Assoc 2005 12 2 217 24 Falcoff H Le dossier orient probleme existe je l ai rencontr Informatique et Sant 1999 11 Fayet Scribe S Chronologie des supports des dispositifs et des outils de rep rage de l information 1997 Fieschi M Vers le dossier m dical personnel Les donn es du patient partag es un atout ne pas g cher pour faire voluer le syst me de sant Revue Droit Social 2005 Fisher J Rey R De l origine et de l usage des termes taxinomie taxonomie Documents pour l histoire du vocabulaire scientifique 1983 V 97 113 Flannery M Cataloging Internet resources Bull Med Libr As soc 1995 83 2 211 5 Florea F Indexation et recherche d information combin e texte et image dans le catalogue de sant CISMeF Ph D thesis INSA de Rouen 2007 Florea F Buzuloiu V Rogozan A Bensrhair A Darmoni S automatic Image Annotation Combining the Content and the Context of Medical Images Proc International Symposium on Signals Circuits and Systems ISSCS 2007 2007 1 1 4 Fontelo P Liu F Leon S Anne A Ackerman M PICO Linguist and BabelMeSH Development and Partial Evalua tion of Evidence based Multilanguage Search Tools for MED
232. ergie l ge de 6 5 ans Belgique Etendre la recherche mots cl s allaitement au sein asthme facteurs de risque hypersensibilit Yl asthme types lecture critique d article Terme s approchant s acc s http hwww minerva ebm beifriarticle asp id 1476 tui de mat astimatique Voir Aussi 2 Corticost roides inhal s pour la bronchoconstriction l effort 2008 amp antiasthmatiques L Site diteur Minerva revue d evidence based medicine Quelle est l ampleur de l efficacit de l administration de corticost roides inhal s versus placebo chez des adultes et aa emane asthmatiques en pr vention de la bronchoconstriction l effort source In Minerva 2008 7 3 44 45 pegs asthme l effortipr vention et contr le bronchoconstriction pr vention et contr le hormones bise corticosurr naliennes usage th rapeutique substances hormones corticosurr naliennes mc types lecture critique d article acc s http iwww minerva ebm be friarticle asp id 1442 M me recherche avec 3 Asthme 2008 rey PubMed Site diteur Int grasco Publi jed Fa Qu est ce que l asthme Pourquoi Quels sympt mes et quelles cons quences Quelques chiffres Traitement intute Cons quences sur la vie scolaire Quand faire attention Comment am liorer la vie scolaire des enfants malades L avenir France 1 ntute mots cl s asthme information patient et grand public int
233. ermes associ s un verbe n gatif m thode du dictionnaire de constituants des transducteurs quivalents la m thode pr c dente peuvent tre utilis s afin de d tecter les constituants ne pas prendre en compte lt TERME est remplac par lt CONSTITUANT gt 108 Chapitre 3 Conception de l extracteur multi terminologique Section 3 9 Prise en compte des contextes aucun pas ne plus jamais sans pr sence non pr sence aucune suspicion absence sans ni lt lminer gt non non caus par pas certain pas n cessairement pas identifi pas r v l n gatif pour pas de signe non apparition exclure non trait pour non trait par FIGURE 3 18 Transducteur permettant d identifier les termes associ s des expres sions n gatives ant rieures n apparait pas n lt avoir gt pas t lt d t ct gt n lt avoir gt pas t lt identifi gt lt tre gt lt limin gt non lt connu non lt d t ct gt non lt apparuz non lt identifi lt exclu gt non lt pr sent gt FIGURE 3 19 Transducteur permettant d identifier les termes associ s des expres sions n gatives post rieures 3 9 2 Prise en compte des rubriques La rubrique dans laquelle se trouve la phrase indexer est un l ment du contexte prendre en compte En effet les l ments du contexte permettent de pr ciser certaines notions qui peuvent d s
234. erztein04 le syst me NooJ comprend un dictionnaire pour le fran ais 16 J ai t aid dans l impl mentation de cette t che par Nicolas Rozanes tudiant en master LINALCO 17 Le lexique Morphalou est un lexique ouvert des formes fl chies du fran ais Les donn es initiales de Morphalou proviennent du TLFnome la nomenclature du Tr sor de la Langue Fran aise Voir http www cnrtl fr lexiques morphalou 18 Voir http www lexique org 19 Il fournit aussi les repr sentations orthographiques et phon miques la cat gorie grammaticale le genre et le nombre les fr quences 20 UNITEX est un syst me de traitement de corpus qui permet de nombreux traitements proches de ceux propos s par NooJ Ce syst me poss de de nombreuses ressources t l chargeables sur lIn ternet Voir http wuw igm univ mlv fr unitex 100 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point UMLF Zweigenbaum03 dictionnaire m dical de 23 141 formes fl chies as soci s leurs lemmes VUMeF Darmoni03b dans le cadre de ce projet 2 742 variantes de concepts Vidal ont t produites Le dictionnaire int gral du S miographe Dutoit00 il comprend 540 000 mots avec leurs lemmes et synonymes Toutes les variantes pour les unit s de dosage et les chiffres ont compl t ce diction naire de lemme L application du transducteur de la figure 3 13 un ensemble de
235. es Le code association non pr vue 1 caract re Le code remboursement exceptionnel 1 caract re Le top suppl ment de charges en cabinet 1 caract re to Localisation dentaire pour les actes dentaires FIGURE 2 15 Structuration du code CCAM Des caract res suppl mentaires aux codes peuvent tre ajout s comme le montre la figure 2 15 ceux ci permettent de d crire l activit permet de diff rencier et num rer les gestes r alis s au cours d un m me acte par des intervenants diff rents valeur de 0 5 pr ciser extension documentaire une lettre qui permet de donner un niveau de d tail suppl mentaire mais non utile la tarification 10 valeurs possibles Exemple pour le terme dilatation intraluminale d une branche de l aorte abdominale destin e digestive avec pose d endoproth se par voie art rielle transcutan e gt EDAF005 nous avons entre autres les codes documentaires lt tronc iliaque gt F et lt art re gastrique gauche gt G pr ciser la phase de traitement pour distinguer les diff rentes phases d un acte en terme de co t et de s jour d hospitalisation exemple pour le terme reconstruction d un tendon de la main par transplant libre en deux temps gt MJMA006 il existe deux phases reconstruction de la gaine fi breuse digitale avec pose de proth se provisoire par abord direct avec ou sans r fection des poulies gt MJMA006 1 1 et
236. es Les diff rents sites et bases de connaissances ac cessibles en ligne sont CISMeF National guidelines clearinghouse 5 NGC Med line PubMed MedlinePlus NLMGateway BDSP Clinical trials 1 Orpha net Hon Intute HealthInSite 14 Google Pour acc der aux ressources appropri es avec ces deux boutons d information il est n cessaire de traduire la requ te de l utilisateur c est dire traduire les diag 4 Accessible ici http www chu rouen fr cismef CISMeF global CISMeF patient CIS MeF recommandations et CISMeF p dagogie 5 Base de donn es recensant les recommandations de langue anglaises destination des profes sionnels de sant Accessible ici http www guideline gov 6 Base de donn es bibliographiques Accessible ici http www ncbi nlm nih gov entrez query fcgi 7 Site en anglais destination des patients et du grand public mis en place par la NLM et pointant sur des sites de qualit Accessible ici http medlineplus gov 8 Porte d entr e permettant une recherche simultan e sur plusieurs bases de donn es de la NLM PubMed MEDLINEplus HSBD Accessible ici http gateway nlm nih gov gw Cmd 9 Banque de Donn es Sant Publique r sultat d un r seau fran ais de coop ration pour la mise en ligne de sources d information en sant publique Accessible ici http www bdsp tm fr 10 ClinicalTrials gov fournit des informations sur les essais cliniques chez l homme
237. es flexionnelles et synonymiques pour chaque terme l mentaire Classe des Relation_concept cette classe renseigne tous les liens s mantiques pouvant relier deux termes l mentaires Classe des Relation_semanticLabel cette classe renseigne tous les liens s mantiques pouvant relier deux tiquettes s mantiques 3 4 2 Mod le g n ral Le mod le g n ral doit tre simple pour diminuer le temps d execution de F MTI et g n rique pour inclure les cinq terminologies et permettre d ins rer plus facilement d autres terminologies dans l avenir Nous nous sommes inspir s des tables et des champs d finissant la structure du m tath saurus de l UMLS En effet la structure de l UMLS contient ce jour au sein d une m me structure plus de 100 terminologies dont la CIM10 la SNOMED 3 5 et le MeSH Nous avons tout d abord identifi tous les attributs et classes communes toutes les terminologies Puis nous avons r alis des op rations pour certaines terminologies afin de d terminer d autres attributs et classes en commun et int grer toutes les donn es dans le mod le final rassembler des attributs dans un attribut plus g n ral ajouter un attribut la valeur NULL est entr e par d faut pour les attributs non renseign s associ des attributs une autre classe ajouter une classe Pour ce processus nous avons d cid de garder certaines structures du m tath saurus de lUMLS
238. es il a fallu dans un premier temps cr er une structure de donn es simple et g n rique pouvant conte nir ces cinq terminologies De cette structure d pendra le temps d ex cution du pro gramme La structure doit galement tre facile mettre jour Les cinq ressources terminologiques mises en oeuvre dans ce projet sont La Classification Internationale des Maladies 10 me dition CIM10 La Classification Commune des Actes M dicaux CCAM La Nomenclature syst matique de m decine humaine et v t rinaire SNOMED 3 5 Le thesaurus medical CISMeF contenant le Medical Subject Headings MeSH Le Th saurus Unifi VIDAL TUV Toutes ces terminologies ont des structures et des particularit s diff rentes Nous avons dans un premier temps analys ces structures en mod lisant une une chaque terminologie Dans un second temps nous avons labor le mod le g n ral partir de ces mod lisations unitaires 3 4 1 Mod les unitaires Nous avons mod lis la structure de chaque terminologie partir des descriptions de chacune faites la section 2 4 Les l ments d finissant la structure de la termi nologie ainsi que les liens entres eux ont t identifi s et retranscrits dans un mod le au formalisme UML 1 Ils ont t r alis s partir du logiciel Pos idon for UML t lechargeable l adresse suivante http www gentleware com products htm1 79 Chapitre 3 Conception de l extr
239. es CIM10 les plus cod s au CHU de Rouen 53 5 sont transcodables en MeSH et appartiennent notre table ces 1000 codes couvrent 82 des comptes rendus d hospitalisation du CHU de Rouen Le choix de ne prendre que les deux m tatermes les plus fr quents pour les assignations automatiques peut galement tre une explication Certains m tatermes ne sont pas pris en compte parce que les termes MeSH auxquels ils sont rattach s taient lexicalement moins pr sents dans le libell ou au ni veau des liens entre les mots cl s MeSH et les m tatermes La fr quence n est peut tre pas le bon crit re de s lection des m tatermes une pond ration des m tatermes ou des mot cl s pourraient tre plus performante Dans notre valuation certains termes consid r s comme faux parce qu ils ont t reconnus automatiquement mais oubli s dans l indexation manuelle pourraient tre rajout s l indexation manuelle Il est envisag de proc der dans une future tude une validation secondaire qui marquerait ce type de m taterme Nous pourrions ensuite dans une deuxi me s rie de comparaisons entre les assignations manuelles et automatiques ajouter ces m tatermes l indexation manuelle Dans une future tude nous pourrions galement tudier la r partition des r sultats par m tatermes ou appliquer l algorithme du sac de mot sur les lib ll s de la CIM10 ce qui donnerait peut tre de meilleurs r sultats puisque l
240. es classants selon leur sp cialit Nous avons ainsi restreint nos valuations aux codes de chaque secteur Cardiologie 326 codes concern s et Pneumologie 317 Pour la CIM10 et la CCAM l assignation de la sp cialit concern es pour chaque code a t effectu e par l quipe CISMeF Massari08 voir section 5 8 1 et 7 3 4 2 2 4 R sultats de l extraction de termes CIM10 pour les dossiers pa tients Nombre de digits Pr cision pris en compte 1 30 0 2 15 0 3 6 8 4 3 3 5 3 4 FIGURE 4 6 R sultats de l valuation de indexation automatique produite par F MTI compar e l indexation manuelle m dico conomique des 794 comptes rendus La premi re valuation voir figure 4 6 montre une pr cision de 3 4 et un rappel de 29 7 par rapport une indexation m dico conomique De plus nous pouvons constater que plus l indexation consid r e est pr cise plus la pr cision et le rappel diminuent passant d une pr cision de 30 3 4 et d un rappel de 90 1 29 7 Nombre de digits Pr cision pris en compte l 26 3 2 11 7 3 6 3 4 3 2 5 FIGURE 4 7 R sultats de l valuation de l indexation automatique produite par F MTI compar e l indexation manuelle m dico conomique des 490 comptes rendus de Cardiologie 5 Classant pour les GHM voir section 2 4 3 1 121 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2
241. es fiches directement aux m decins via un r seau de visiteurs m dicaux Il cr la soci t OVP Office de Vul garisation Pharmaceutique en 1911 Le premier dictionnaire des sp cialit s pharma ceutiques qui deviendra le dictionnaire Vidal en 1961 appara t en 1914 Il comporte alors 336 monographies et une classification pharmaceutique En 1989 OVP s ouvre la technologie informatique avec le premier Cd rom Vidal En 1995 les produits d OVP au d part vis des professionnels de sant et des industries pharmaceutiques s ouvrent sur le grand public avec le Vidal de la famille Vidal SA est pass rapidement de l dition d un dictionnaire sur le m dicament la gestion d une base de donn es multiplateforme scientifique et r glementaire s adressant tous les professionnels de sant L arriv e du support lectronique a permis Vidal de cr er l une des plus grosses bases de connaissances sur le m dicament permettant de nombreux traitements in formatiques sur les donn es qu elle contient L expertise cl de Vidal r side en un savoir faire dans le domaine de la structu ration de l information de Sant Cette structuration prend tout son sens en offrant la possibilit pour l utilisateur d acc der de fa on contextuelle l information qui l int resse Par ailleurs les syst mes d aide la d cision th rapeutique voient leur efficacit am liorer gr ce l usage de donn es contextuell
242. es plus rares sont limin s ou tr s peu pris en compte La m thode d apprentissage va consister lier les descripteurs significatifs pour un ensemble de documents des termes appartenant au lan gage d indexation choisi les termes dans le cas d une terminologie Ces liaisons sont d termin es de mani re statistique Si un descripteur significatif du corpus est souvent associ un terme parce que ce terme est souvent index pour les documents contenant ce descripteur alors ce descripteur significatif est li au terme Le document contenant ce descripteur sera index par ce terme Cette phase est r alis e par des outils d apprentissage machine learning Les m thodes de classification par apprentissage les plus connues sont les mod les vectoriels exemple tf idf Salton89 KPP V K Plus Proches Voisins Yang94 SVM Support Vector Machine Vapnik95 Joachims98 LSA Latent Seman tic Analysis Deerwester90 LLFS Linear Least Squares Fit Naive Bayes 61 Chapitre 2 Etat de l art Section 2 5 Aide l indexation Bayes63 L algorithme de CLO3 Nakache07 obtient de bons r sultats puis qu il am liore de pr s de 7 les algorithmes analogues une phase de restitution qui permet d utiliser les correspondances descripteurs termes apprises la phase pr c dente et stock es dans une base de connaissance pour l indexation d un nouveau document Le nouveau document est analys s il contie
243. es sont communs entre le TUV et les quatre autres terminologies Au niveau du temps d ex cution pour la d suffixation de 30 000 mots l algo rithme de Lucene met 12 min celui de Carry 15 min 30 et l algorithme de CISMeF 11 min 30 bien str cela est largement d pendant du langage utilis pour impl menter les trois m thodes ici le Perl Le FrenchStemmer de Lucene propose donc en mati re de temps d ex cution des r sultats tout a fait corrects Nous choisissons donc l algorithme Lucene comme algorithme de d suffixation pour F MTI Cet algorithme sera aussi int gr dans Doc CISMeF Il faut ajouter que l impact de la d suffixation sur les performances des syst mes de recherche d information est cependant discut Moreaure En outre il existe d autres m thodes d valuation de ce genre d algorithme telles que le nombre moyen de mots le niveau de compression obtenu le nombre moyen de caract res supprim s ou la distance de Hamming Paice96 Mais celles ci ne mesurent pas l algorithme en situation d indexation La m thode que nous avons d velopp e nous semble donc mieux adapt e notre probl matique 4 2 2 valuation de l extraction de termes CIM10 et CCAM pour les dossiers patients 4 2 2 1 M thode d valuation Nous avons souhait valuer l outil F MTI dans le cadre du codage des comptes rendus d hospitalisation fran ais en CIM10 Pereira08b et en CCAM Nous avons appliqu la m thode
244. es sur le m dicament Aujourd hui la soci t Vidal est le sp cialiste de l information de r f rence sur les produits de sant et des services d aide la prescription la dispensation et la d livrance 1 3 2 2 Les produits La soci t collecte et diffuse 2 information de r f rence r glementaire adminis trative conomique et th rapeutique sur diff rents supports papier dictionnaire Vidal Tarex CD Rom VidalCD VidalExpert et sites Web 29 En 1992 le premier Vidal lectronique na t d une collaboration avec le Dr Darmoni 30 Pour avoir plus de d tails sur les diff rents produits voir http www vidal fr 11 Chapitre 1 Contexte Section 1 3 Contexte scientifique Les donn es sont rendues plus accessibles gr ce des moteurs de recherche Les produits lectroniques proposent une recherche de sp cialit s t selon plusieurs crit res son nom exemple lt Sectral gt les substances qu elle contient principe actif ou excipient exemple lt acebu tolol gt associ la sp cialit lt Sectral gt les indications pour lesquelles cette sp cialit peut tre prescrite exemple lt diab te insulinod pendant gt associ la sp cialit lt insuline actrapid gt laboratoire de fabrication forme couleur par cat gories par la classification th rapeutique Vidal ou l ATC ou Ephmra 33 L utilisateur peut alors consulter la m
245. es unitaires pour la base de donn es multi terminologique les actions r alis es par un meme acte par diff rents intervenants L attribut code_ext_doc collecte les extensions documentaires pour ce terme L attribut code_phase sp cifie le num ro de la phase ex le phase L attribut phase indique la phase de traitement pour cet acte L attribut code_modificateurs collecte les codes modificateurs pouvant s appliquer au code 4 maximum s par s par un point virgule L attribut code_assoc permet de signaler des associa tions d actes non pr vues L attribut remboursement renseigne sur le rem boursement possible sous condition ou non pour cet acte N ou O L attribut supp_charges indique si un suppl ment au tarif est appliqu en cas d acte en cabinet C si oui L attribut loc_dents renseigne les localisations de dents trait es si acte dentaire 6 maximum s par es par un point virgule Les attri buts libell _long et libell _court sp cifient le libell long et le libell court pour ce code L attribut type_d acte indique le type de l acte AI acte isol P proc dure AC geste compl mentaire L attribut niveau indique le niveau du code dans la hi rarchie L attribut tarif indique le tarif pour cet acte L at tribut entente indique si l acte est soumis une entente pr alable O ou N L attribut exo_TM indique si l acte peut tre exon r et dans quelles condi tions L attri
246. esentation of medical texts Methods Inf Med 1992 31 117 25 Baud R Lovis C Rassinoux A Michel P Scherrer J Extrac ting knowledge from an international classification Proceedings of MIE 97 IOS Press 1997 Bayes T An essay towards solving a Problem in the Doctrine of Chances Philosophical Transactions of the Royal Society of London 1763 53 Bayesa Yates R Ribeiro Neto B Modern Information Retrie val CM Press Books 1999 Bell T Cleary J Witten I Text compression NJ Prentice Hall 1990 Berard Dugourd A Fargues J Landau M Rogala J Un syst me d analyse de texte et de question r ponse bas sur les graphes conceptuels Informatique et Gestion des Unit s de Soins Paris Springer Verlag 1989 1 223 33 Bergman MK The Deep Web Surfacing Hidden Value The Journal of Electronic Publishing 2001 7 Issue 1 http quod lib umich edu cgi t text text idx c jep view text rgn main idno 3336451 0007 104 Berrut C Indexing medical reports The rime approach Inf Process Manage 1990 26 1 93 109 Berthelot G Mazars P Sanou M Codage du dossier patient usage m dico conomique Recension des outils algorithmes d optimisation conomique Master s thesis Universit Paris V 2005 Bertrand A Compr hension et cat gorisation dans une acti vit complexe l indexation de documents scientifiques Ph D thesis Universit de Toulouse le Mirail 1993 Bodenreid
247. est rejet et pour la d suffixation lt alcool gt et lt alcoolisme gt sont rejet s Ainsi la d suffixation donne une meilleure pr cision que la lemmatisation Mono terminologie ou multi terminologie Les performances du F MTI mono terminologie vs F MTI multi terminologie sont assez proches en terme de pr cision et de rappel L utilisation d un syst me multi terminologique permet d exploiter un r seau s mantique plus large compos de plusieurs terminologies L acces un r seau s mantique plus important permet a priori d extraire plus de termes Les r sultats montrent pour un syst me multi terminologique un meilleur rappel et une pr cision inf rieur compar un syst me mono terminologique La baisse de pr cision est due aux erreurs de transcodage ind pendamment de l outil F MTI Il est important dans notre m thodologie que tous les transcodages ne relient que des termes qui ont strictement le m me sens Les transcodages bidirec tionnels CIM10 MeSH et SNOMED MeSH de l UMLS ont t analys s Nous avons pu mettre en vidence un nombre important de diff rence de granularit ou de sens entre les concepts li s par ces relations de transcodage Nous esp rons obtenir une meilleure pr cision apr s limination des erreurs de transcodage Impact sur l indexation CISMeF La politique de recherche d information de l quipe CISMeF consiste proposer l utilisateur peu de ressources mais tr s cibl e
248. et VUMeF Darmoni03b en partenariat avec des industriels et d autres la boratoires dont le Vidal et l quipe CISMeF Il est noter que ces travaux 16 Chapitre 1 Contexte Section 1 3 Contexte scientifique concourrent l am lioration de la recherche de connaissances dans la litt rature biom dicale et le Web de sant pour l aide l apprentissage et la prise de d cisions Afin d am liorer la mise en oeuvre de connaissances m dicales dans un but de s curisation des soins des outils permettant le couplage connaissances m dicales et informations sur le patient ont t d velopp s Ces outils visent a am liorer la d cision m dicale et la prise en charge du patient Le projet ASTI en 2006 Bouaud02 se proposait de concevoir et d valuer une 2 me g n ration de systemes informatis s d aide a la prescription d finis comme des outils ca pables d aider le prescripteur recourir la meilleure strat gie th rapeutique en situation clinique Une s rie de projets les projets ARIANE Joubert02 COMeDIAS Joubert03 et WRAPIN Joubert07a ont eu pour but de permettre aux professionnels de sant d acc der des bases d information du domaine biom dical bases de donn es patients banque de donn es sur les m dicaments guides de bonne pratique bibliographie dans le syst me d information de leur entreprise ou sur l Internet gr ce un ensemble de services Web en partenariat avec Health
249. eur du terme syst matique de l exclusion ou de l inclusion de l appariement dague et toile L attribut code_associ d signe le code du terme CIM10 appari au pr c dent L attribut typedag star d signe le type de renvoi dague ou ast risque avec un drapeau plus signi fiant l extension de l appariement portant sur une cat gorie la sous cat gorie ad quate Classe des M mo cette classe indique les glossaires ou notes qui peuvent tre rattach s aux termes syst matiques CIM10 Classe des Propri t s cette classe r uni pour chaque terme diff rents attri buts de type bool en sexe s quelles tats apr s non valable comme diagnostic 193 Chapitre A Annexes Section A 2 Mod les unitaires pour la base de donn es multi terminologique principal non codable Quelques commentaires L attribut female qualifie les termes r serv s exclusivement au sexe f minin L attribut sequela qualifie les termes r serv s exclusivement au sexe masculin L attribut post qualifie les termes r serv s aux d sordres apr s une op ration L attribut second qualifie les termes non utilisables comme diagnostic principal L attribut nocode qua lifie les termes non codables c est a dire pour lesquels il existe un terme plus appropri plus bas dans la hi rarchie Pour le CIM10 la valeur O pour oui sera attribu e aux termes de dernier niveau N pour les autres Tous les codes ayant un desc
250. exation visualisation de l indexation plat ou de mani re graphique telle que les ic nes VCM de Lamy pour le TUV 7 ou visualisation en arbre cr e par Carlo de l quipe CISMeF pour le MeSH et qui pourra tre tendue aux autres terminologies 5 5 2 Perspectives Nous voudrions valider cette interface et les fonctionalit s propos es par des pro fessionnels de sant et des indexeurs experts Ceci pourra conduire l impl mentation de cet outil d aide l indexation g n rique Une version plus labor e pourra introduire la fonctionalit d indexation lt la vol e gt Ce genre d indexation est l tude pour l outil Snocode pour la terminolo gie SNOMED 3 5 et pourrait tre exploit e dans notre outil en indexation multi terminologique L indexation a la vol e gt consiste en l indexation en temps r el du document au moment m me o celui ci est en train d tre r dig La r daction peut tre manuelle ou dict e voix haute gr ce des outils de reconnaissance vocale Happe03 5 6 Int gration un serveur multi terminologie Il existe un besoin fort pour un serveur multi terminologie des internautes sp cialistes de l une ou l autre des terminologies m dicales francophones documen talistes notamment mais aussi des professionnels des traitements de l information m dicale soucieux d obtenir une source terminologique compl te Le projet InterSTIS Interop rabilit S mant
251. excluant Les attributs code exclu libell et type exclusion d signent le 192 Chapitre A Annexes Section A 2 Mod les unitaires pour la base de donn es multi terminologique cd Diagram me ce casse CIM10 J coda p re char code_echar emi code char male mt cod he eran ypen mao chee RAA FE m mo chat baie cher gt porn ieee soue ch r Secanetind Anocode int etin f code char f code_exduchar plugint dayat char Hb ll cha lype_excusionchar f SOTE ar 4tibelie cher a4 tatleautexte char boeil char ib li char Source chat source cher i per N Y Dagstar coda char bet char code associ char 4ypedag sterchar pusr be per FIGURE A 3 Diagramme de classes repr sentant la structure de la CIM10 au for malisme UML code CIM10 du terme exclu son libell ainsi que son type d exclusion directe D indirecte I pas de code exclu pour celui l L attribut typedag star d signe le type de renvoi dague ou ast risque si elle s applique a une exclusion avec un plus si la relation est de type dag ast risque Classes des Dagstar cette classe explicite tous les appariements dagues et ast risques de la classification CIM10 Quelques commentaires les attributs code et libell d signent le code et le libell du terme de d part descript
252. famille la petite Lis a ii R sum La recherche d information ainsi que l aide la d cision n cessitent un acc s rapide et efficace aux connaissances contenues dans une collection de documents de sant ainsi qu une bonne exploitation des connaissances m dicales L indexation description l aide de mots cl s permet de rendre ces connaissances accessibles et utilisables Dans le domaine de la sant le nombre de ressources lectroniques dispo nibles augmente de mani re exponentielle ainsi la n cessit de disposer de solutions automatiques pour faciliter l acc s aux connaissances ainsi que l indexation est om nipr sente L objectif de cette th se a t de d velopper un outil d aide l indexation automatique multi terminologique multi document et multi t che nomm F MTI French Multi terminology Indexer capable de produire une proposition une indexa tion pour les documents de sant Cet outil a n cessit l laboration de m thodes de Traitement Automatique de la Langue Naturelle Il a t appliqu l indexation do cumentaire dans le catalogue de sant en ligne CISMeF l indexation des donn es th rapeutiques pour les m dicaments et l indexation des diagnostics et des actes m dicaux pour les dossiers m dicaux l ctroniques Mots Cl s Indexation et r daction du r sum m thodes Stockage et recherche infor mation m thodes Dossiers m dicaux SNOMED Medical S
253. fixation moins 0 8 pour la pr cision et plus 0 4 pour le rappel dans le cadre de l valuation de l indexation produite par F MTI mono terminologie compar e l indexation manuelle en prenant en compte seulement les descripteurs sur l int gralit du corpus 4 2 4 4 2 R sultats pour F MTI multi terminologies Lorsque l on compare F MTI multi terminologies par rapport F MTI mono terminologie incluant la d suffixation les r sultats montrent une augmentation du rappel de 0 5 et une diminution de la pr cision de 3 5 voir figure 4 15 et 4 16 Pour la lemmatisation les r sultats montrent qu un syst me multi terminologique produit une baisse de la pr cision de 1 6 et une augmentation du rappel de 1 4 2 4 4 3 R sultats concernant les diff rents types de ressource Lorsque l on consid re les r sultats selon le type de la ressource recommandations enseignement et patient les variations sont importantes Les r sultats produits par F MTT multi terminologique incluant la d suffixation montrent 133 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es 44 4 de pr cision et 25 7 de rappel pour les ressources d enseignement 39 9 de pr cision et 18 7 de rappel pour les recommandations 38 3 de pr cision et 27 8 de rappel pour les ressources patients Ces variations peuvent tre reli es au nombre moyen de descripteurs MeSH assign s manuelle
254. forme ITM Intelligent Topic Manager de la soci t Mondeca http www mondeca com fr index htm ITM est une plateforme logicielle pour la gestion de r f rentiels m tier taxonomies th saurus terminologies bases de liens bases de connaissances catalogues portails s mantiques bas e sur les technologies des ontologies format SKOS Simple Knowledge Organisation System et OWL Web Ontology Language et du Web 3 0 154 Chapitre 5 Applications du F MTI Section 5 7 Optimisation de la prescription informatis e PSIP de donn es multi terminologique de F MTI dans le sens ou sa structure a t clat e Cependant une fonction permet de reg n rer les tables conformes au mod le de F MTI et utiles au fonctionnement de F MTI En corollaire il sera plus ais d int grer les terminologies du SMTS manquant F MTI La mise jour des terminologies sera automatis e F MTT pourra ainsi b n ficier de cette fonctionnalit Compar 0121044289 30411982 L Informations g n rales Angha s Synonyme Used For acute Chaine inctuse inchise string myocerhal nfarction recited a dayi romponent composant cena orere nate note i Relations C2 CIM10 Crue CIO Boot with CHIP2 We CISP2 link d to C1410 l C10 EXCLUSION EXCLUSION est much Is enchaitort emchudes vocht FIGURE 5 6 Recherche sur le terme lt Acute myocardial infarctions dans le SMTM aux se
255. forme conjugu e et un adjectif exemple lt d g n re gt et lt d g n r gt Nous comparons ces deux m thodes de normalisation d suffixation par rapport lemmatisation dans le cadre de l indexation automatique voir section 4 2 4 D autres m thodes existent comme la phon misation voir section 2 5 3 1 2 le choix s est port sur ces deux m thodes car nous disposions d outils pour permettre leurs applications En outre ces m thodes ont des particularit s diff rentes que nous voulions tester dans le cadre de l indexation automatique Enfin les RCP dossiers m dicaux et ressources Web de qualit ne pr sentant que peu de fautes d ortho graphes contrairement aux requ tes entr es par les utilisateurs dans le catalogue CISMeF la phon misation ne nous a pas sembl tre la m thode ad quate 3 8 1 3 2 Appariement phrase termes appartenant aux terminologies Les termes et la phrase sont par cette m thode exprim s de la m me fa on un ensemble de mots normalis s o l ordre n est plus pertinent En programmation ceci revient ranger par ordre alphab tique les mots normalis s constituant le sac de mots Plusieurs termes cibles peuvent tre n cessaires pour couvrir les diff rents lemmes ou st mes d une phrase Algorithmiquement cela se traduit par la constitution de toutes les combinaisons de taille 1 n de st mes ou lemmes contenus dans le sac de mots de la phrase Puis chaque combin
256. formes de sinusites e angines r cidivantes amygdalites chroniques ns de bri ite s du patien ELG notamment thylique chronique tabagique o e o 4 plus de 65 ans en ca risque volutif ou en seconde intention Proposition auto Doct e exacerbations de bronchopneumopathies chroniques Indexing e pneumopathies aigu s du patient risque notamment thylique chronique tabagique g de plus pa de 65 ans ou pr sentant des troubles de la d glutition TUY cystites aigu s r cidivantes cystites non compliqu es de la femme et py lon phrites aigu s non z IND J IO AOTER TAE RE DEE E NR IM A AA ERRIRE aaa aa aaraa odode dadadada gt Otite Referentiels Description Recherche d info fme v Terminology Server otites moyennes aigu i Ji f CIM10 T Pamo an I iel 2 Threshold Q h20 1 D acu Results oov DIAG Lx c D CHRONIQUE EI Tw Bronchite 56 0 amp Lo DEFICIT cm Autres maladies pulmonaire obstructives chr 52 6 ime i o MALADIE cm 52 6 5 SYNDROME ET 52 6 9 TROUBLE HSH R sum auto Pe p oCA SONTAG rw Bronchite traitement phytoth rapique de la 52 6 AA cardota e rw Bronchite traitement ham opathique de la 52 6 LE me EEN Fe Bronchite traitement adjuvant de la 52 6 Ranger t ji ial Q surinfections de bronchites aigu s lt 2 Tuy cm0 ccam mesa snm are cise Te Ready FIGURE 5 4 Maquette d une interface pour le logiciel
257. fy rele vant patient information and its impact on clinical information retrieval AMIA Annu Symp Proc 1999 642 6 Zipf G Human behavior and principles of feast effort 1949 Zweigenbaum P Bachimont B Bouaud J Cavazza M Dor L H lene Compr hension de comptes rendus d hospitalisation Informatique et Gestion des Unit s de Soins Paris Springer Verlag 1989 1 257 68 Zweigenbaum P Cavazza M Deep sentence understanding in a restricted domain Proc 13 th COLING Helsinki 1990 82 4 222 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Zweigenbaum92 Zweigenbaum94 Zweigenbaum95 ZweigenbaumI8 Zweigenbaum99 Zweigenbaum01 Zweigenbaum03 Zweigenbaum P Cavazza M Dor L Bouaud J Sedlock D Natural language processing of patient discharge summa ries NLPAD extraction prototype In Jaap Noothoven IOS Press Amsterdam 1992 277 286 Zweigenbaum P consortium MENELAS MENELAS an ac cess system for medical records using matural language Comput Methods Programs Biomed 1994 45 117 20 Zweigenbaum P Bachimont B Bouaud J Charlet J Bois vieux J Issues in the structuring and acquisition of an ontology for medical language understanding Methods Inf Med 1995 34 1 2 15 24 Zweigenbaum P Courtois P Acquisition of lexical resources from SNOMED for medical language processing Proc 9th World Congress on Medical Informatics 1998 586 90 Zweig
258. g n ral de la base de donn es de F MTT et int grer l ensemble dans les diff rents champs pr vus produire le sac de mots pour chaque terme une fonction y est d di e dans F MTI inclure dans la partie du code de F MTI les r gles d indexations li es cette terminologie et a la tache ffectu e Ces tapes sont assez faciles m me si elles sont d pendantes de la complexit de la terminologie ajouter Pour une meilleure indexation d une nouvelle terminologie la m thode de cr ation du dictionnaire de variantes peut tre appliqu e 5 5 1 Interface adapt e Voici dans l id al comment nous imaginons notre futur outil d aide l indexation g n rique Les fonctionnalit s ont t inspir es de nos travaux de l outil BIBLIS et d autres travaux voir l interface propos e figure 5 4 une navigation facilit e l int rieur des documents indexer elle sera d autant plus facile que la structure du document est pr cis e au d part dans l outil une fonctionnalit pourrait tre d di e une navigation facilit e dans les diff rentes terminologies ainsi qu une visualisa tion des diff rentes propri t s et liens inter et intra terminologies pour chaque terme le serveur SMTS pourra tre utilis ici voir section 5 6 proposition de termes d indexation automatique partir d un fragment de texte du RCP ou d une requ te tap e par l utilisateur grace au serveur term
259. gies by terminology extraction from texts an experiment for the intensive care units Comput Biol Med 2006 36 7 8 857 70 Chartron G Dalbin G Monteil M Verillon M Indexation manuelle et automatique d passer les oppositions Documen taliste 1989 26 4 5 Chartron G De l information sp cialis e a l information labor e probl mes de mod lisation Se congr s SFSIC 1992 462 Chaumier J Dejean M L indexation assist e par ordinateur principes et m thodes Documentaliste 1992 29 1 Chevallier J Griesser J Brunel L Tothem un outil d aide au codage selon la CIM10 EMOIS2003 2003 Chiao Y Extraction lexicale bilingue partir de textes m dicaux comparables application la recherche d informa tion translangue Ph D thesis Universit Pierre Marie Curie Paris VI 2004 Cimino J G E Zeng Q Supporting Infobuttons with Termi nological Knowledge J Am Med Inform Assoc 1997 4 Suppl 528 532 Cimino J Use usability usefullness and impact of an infobut ton manager AMIA Annu Symp Proc 2006 151 5 Coret A Menon B Schibler D Terrasse C Un syst me d in dexation structur e l INIST Documentaliste 1994 31 3 Cori M L on J La constitution du TAL Etude historique des d nominations et des concepts TAL 2002 43 3 21 55 Covell D Uman G Manning P Information needs in office practice are they being met Ann Intern Med 1985 103 4 596 9
260. gnifiants lappa riement en consid rant des combinaisons de 6 mots peut prendre plus d une minute Nous nous sommes donc limit pour des soucis de temps de calcul 5 mots signifiants pour un terme Seul les termes qui ont un sac de mots de moins de 6 mots pourront donc tre index s par notre algorithme du sac de mots Ainsi m me face une phrase longue le programme mettra un temps raisonnable 97 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point 3 8 1 6 Points forts et points faibles de la m thode du sac de mots La m thode du sac de mots est bas e sur les mots Cette m thode a l avantage d tre simple Lorsqu elle utilise la d suffixation elle ne n cessite que peu de res sources une table des suffixes et des r gles appliquer suffisent Contrairement l algorithme d origine toutes les combinaisons de mots sont au toris es ce qui permet de retrouver dans la phrase lt L enfant de 5 ans et l adulte sont asthmatiques gt les termes lt enfant de 5 ans asthmatique gt et lt adulte asthmatique gt Alors que dans l ancien algorithme seul le premier terme tait retrouv car l indexa tion des termes les plus longs tait privil gi e 14 Cette m thode permet de trouver des termes dont l ordre des mots n est pas res pect dans la phrase Par exemple le terme TUV lt enfant diab tique gt est index pour la phrase lt Nous avons d cel
261. grammaires morphologiques et syntaxiques peuvent tre d finies afin de pr ciser la forme des variantes pour un terme Ceci peut tre tres utile pour des termes pouvant prendre des formes multiples voir figure 2 23 Hoi types de mois 129 50 et 31 jours deraier prochain w gt ann es apr s J C 1 avant notre re de notre re avant l gire de l gire Max Silberztein E Universit de Franche Comt FiDecuments and Settings silberz My Documents Noo fr Syntactic Analysis_Datenog FIGURE 2 23 Exemple de grammaire syntaxique pour le terme lt date gt 54 Travail r alis par l quipe CISMeF ajout de plus de 7 000 synonymes A N v ol N v ol05a et moi m me Pereira06 dictionnaire de variantes MeSH 65 Chapitre 2 Etat de l art Section 2 5 Aide l indexation Ces grammaires sont g n ralement impl ment es sous forme d automates dictionnaires patron d extraction utilisant des lexiques Gaudinat02 Pouliquen02 Lovis98 et Silberztein93 L appariement L appariement consiste a faire correspondre une ou des expressions du docu ment a une variante d un terme le principe est le m me pour la traduction d une requ te en une terminologie Cette mise en correspondance ne prend g n ralement pas en compte les mots vides les mots les plus fr quents susceptibles de fausser la repr sentation du contenu s mantique du texte Exemple lt l
262. gravit Association d conseill e Nature du risque Augmentation de la lith mie pouvant atteindre des valeurs to l excr tion r nale du lithium Conduite tenir Si l association ne peut tre vit e surveiller troitement la lit posologie du lithium pendant l association et apr s l arr t de l e non st ro dien FIGURE 1 5 Exemple d une alerte concernant une int raction m dicamenteuse d tect e laide du logiciel VidalExpert Vidal a aussi d velopp Vidal Recos outil d aide la d cision th rapeutique qui diffuse des synth ses de recommandations th rapeutiques pour des pathologies sp cifiques Pour tre au plus pr s de l activit des professionnels de sant et permettre un acc s tr s rapide aux informations des outils ont t d velopp s sur assistants per sonnels num riques et sur le t l phone portable Ils sont aussi compatibles avec de nombreux logiciels m dicaux disponibles sur le march comme les logiciels de dossiers patients lectroniques 1 3 2 3 Le recueil des informations sur le m dicament Le dictionnaire Vidal contient des informations sur plus de 5 000 m dicaments et 4 900 produits de parapharmacie Pour chaque m dicament l information est contenue dans une monographie qui reprend l information officielle des R sum s Ca ract ristiques du Produit RCP issues de l Agence Fran aise de S curit Sanitaire des Produits de Sant AFSSAPS ou
263. hapitre 2 4 3 3 les deux premi res correspondent une r gion anatomique la troisi me l action la quatri me la voie d abord C est partir de ces significations et notament de la r gion anatomique et de la voie d abord que l expert a d fini manuellement les mots clefs MeSH et ainsi d velopp et valid un transcodage CCAM MeSH Chaque terme CCAM a t assign 1 ou plusieurs termes MeSH 4 8 ecart type 3 5 codes MeSH en moyenne par code CCAM Les mots cl s MeSH assign s appartenaient 2 des 15 cat gories MeSH A et E correspondants aux termes techniques anatomiques et diagnostiques Par exemple pour le code BACA008 F MTI a assign les termes MeSH proc d s chirurgicaux gt technique lt sourcil gt anatomie et lt plaies et l sions traumatiques gt diagnostic 1 ou plusieurs m tatermes La CCAM est class e par grands appareils et non par sp cialit s ce qui ne permet pas d embl e de d finir un m taterme pour les codes La sp cialit n est pas non plus sp cifi e explicitement dans le libell L assignation s est 157 Chapitre 5 Applications du F MTI Section 5 8 Aide au transcodage faite grace aux connaissances de l expert L indexation automatique a consist pour chaque terme CCAM a utiliser F MTI et notament la m thode du sac de mot sur les libell s CCAM Plusieurs termes cibles peuvent tre n cessaires pour couvrir les diff rents mo
264. hapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point dans la phrase pouvaient nous permettre de reconnaitre un ou des termes d une terminologie constitution du sac de mots de la phrase Dans un deuxi me temps nous avons d termin pour chaque terme des terminologies les l ments signifiants qui pouvaient tre reconnus dans une phrase constitution du sac de mots du terme Le m me algorithme est appliqu la phrase comme aux termes des terminologies les deux entit s tant exprim es sur le meme plan nous pouvons alors comparer le sac de mots issus de la phrase et ceux issus des termes et ainsi apparier des termes la phrase appariement voir figure 3 10 Ces termes sont alors propos s pour l indexation de la phrase Lorsque toutes les phrases du document sont trait es une proposition pr liminaire d indexation du document peut tre faite FA TUV Phrase Porphyries cutan e consid r e comme stable MeSH SNOMED SNOMED FIGURE 3 10 Comparaison du sac de mots issus de la phrase et ceux issus des termes 3 8 1 3 L algorithme du sac de mots Nous avons modifi l algorithme utilis au d part pour la traduction des requ tes Soualmia04 Son fonctionnement est le suivant voir figure 3 11 3 8 1 3 1 Constitution des sacs de mots Le sac de mots contient tous les mots normalis s pertinents d une phrase ou d un libell d une terminologie da
265. he en sant sur Ep Internet 205 Bibliographie Abdallah98 Alper01 Amaraki07 Anderson01 Aronson00 Aronson01 Aronson04 Aronson07 Averbuch04 A villachO8a Abdallah I Segmentation et codage de signaux de parole par crit res entropiques Ph D thesis Universit du Maine 1998 Alper B Stevermer J White D Ewigman B Answering fa mily physicians clinical questions using electronic medical da tabases J Fam Pract 2001 50 11 960 965 Amaraki E Imai T Kajino M Miyo K Ohe K Statistical Selector of the Best Multiple ICD coding Method Stud Health Technol Inform 2007 645 649 Anderson J Perez Carballo J The nature of indexing how humans and machines analyze messages and texts for retrieval part i Research and the nature of human indexing Informa tion Processing and Management 2001 2 37 231 254 Aronson A Bodenreider O Chang F Humphrey S Mork J Nelson S Rindflesch T Wilbur J The NLM Indexing Initiative AMIA Annu Symp Proc 2000 17 21 Aronson A R Effective mapping of biomedical text to the umls metathesaurus the metamap program AMIA Annu Symp Proc 2001 17 21 Aronson A R Mork J G Gay C W Humphrey S M Rogers W J The nlm indexing initiative s medical text indexer Stud Health Technol Inform 2004 268 272 Aronson A Bodenreider O Demner Fushman D Wah Fung K Lee V Mork J N v ol A Peters L
266. i notamment thylique chronique tabagique g de plus de 65 ans en cas de risque volutif ou en seconde intention 7 e exacerbations de bronchopneumopathies chroniques En pret Le e pneumopathies aigu s du patient risque notamment thylique chronique tabagique g de plus E PATHO a de 65 ans ou pr sentant des troubles de la d glutition amp AIGU cystites aigu s r cidivantes cystites non compliqu es de la femme et py lon phrites aigu s non xl o 5 CHRONIQUE SE TC Bee NN o C5 DEFICIT Reference terms Terminology Server amp MALADIE m x Ja Q T D SYNDROME e ick au point d injection ise ca Ba Threshold i ho D TROUBLE Abc s corn en Results ma abc s NT rw Bronchite 56 0 abc s corn en Kj Hh Lb rw Bronchite traitement phytoth rapique dela 52 6 abc s dentaire Tw Bronchite traitement hom opathique de la 52 6 abc s du foie __ Lexical alternatives rw Bronchite traitement adjuvant de la 52 6 accident cardiovasculaire PATHO ail a accident vasculaire c r bl a al il ul gt TUV mec Exa MET gt i z SSS surinfections de bronchites aigu s 9 3 FIGURE 5 1 Interface de l outil d indexation semi automatique BIBLIS proposition en temps r el de termes d indexation automatique partir d un fragment de texte du RCP ou d une requ te tap e par l utilisateur grace au serveur terminologique Les termes retrouv s par l
267. i T Pereira S Lecroq T Joubert M Darmoni S J In heritance of SNOMED CT relations between concepts to two health terminologies SNOMED International and ICD10 Proceedings of the 3rd international confe rence on Knowledge Representation in Medicine KR MED 2008 118 Merabti08 Merabti T Pereira S Letord C Lecroq T Dahamna B Joubert M Darmoni J Searching Related Resources in a Quality Controlled Health Ga teway a Feasibility Study Proceedings of MIE2008 Stud Health Technol Inform Volume 136 Pages 235 240 2008 N v ol07 N v ol A Pereira S Kerdelhu G Dahamna B Joubert M Dar moni S J Evaluation of a simple method for the automatic assignment of MeSH des criptors to health resources in a french online catalogue Proceedings of Medinfo2007 Stud Health Technol Inform 2007 129 407 11 N v ol06 N v ol A Pereira S Soualmia F F Thirion B Darmoni S J A me thod of cross lingual consumer health information retrieval Proceedings of MIE2006 Stud Health Technol Inform 2006 124 601 608 A 7 Publications nationales comit de lecture Pereira07 Pereira S Massari P Joubert M Darmoni S Utilisation de m tatermes pour la recherche d information dans les dossiers m dicaux In 224 Chapitre A Publications personnelles Section A 9 Posters nationaux et internationaux Actes des journ es Francophones d Informatique M dicale 2007 Pereira07 Pereira S N v ol A
268. ibu e par l Afssaps Agence fran aise de s curit sanitaire des produits de sant Chapitre 1 Contexte Section 1 3 Contexte scientifique croissance soutenue de l ordre de 7 millions de pages par jour et l ensemble d passe les 10 milliards Pour les utilisateurs en qu te d information m dicale il est devenu tr s difficile de rechercher des informations sur le Web compte tenu de la quantit norme de sites et de documents m dicaux disponibles Chacun peut publier des informations m dicales sur le Web aussi il est devenu difficile de retrouver de l information de qualit et correctement recens e 1 3 1 2 Les travaux de l quipe CISMeF L quipe CISMeF a d velopp le site du Catalogue et Index des Sites M dicaux Francophone CISMeF en f vrier 1995 voir figure 1 1 Il r pertorie et indexe les documents lectroniques d information institutionnelle de sant en langue fran aise afin d aider les professionnels de sant les tudiants et les patients a rechercher une information de qualit en sant sur Internet Quatre raisons ont motiv l laboration du catalogue la profusion des informations toujours grandissante en sant sur le Web la n cessit d acc der des informations fiables et de qualit en m decine lin existence de moteur de recherches sp cialis s et efficaces et la difficult de distinguer les informations destin es aux professionnels de celles destin es aux patients
269. id r es de qualit et d importance moindre l aide de processus automatique N v ol07b niveau 2 et 3 d indexation Cette avanc e a permis de doubler en peu de temps le nombre de ressources disponibles dans le catalogue CISMeF La r activit de l quipe est ainsi plus grande face aux demandes des utilisateurs et l amoncellement de res sources d int r t disponibles sur Internet Le premier besoin est donc de continuer les efforts entrepris en am liorant les m thodes d indexation acquises et en en explorant de nouvelles L quipe a constat au fil des ann es une forte mont e de l int r t pour d autres terminologies au sein de la communaut hospitali re 7 et des sp cialistes Le deuxi me besoin s exprime donc dans la prise en compte d autres terminologies au sein du ca talogue L une des critiques qui revient le plus souvent au sujet du moteur de recherche CISMeF est la complexit de la recherche d information qui s est cr e au fur et mesure des nouveaux d veloppements dans le catalogue CISMeF travaille donc continuellement l am lioration de l acc s ses informations Une des am liorations serait de faciliter l acc s l information pour les m decins aux diff rentes bases de donn es accessibles sur Internet En effet la recherche d information au cours de l ac tivit d un praticien n est pas encore syst matique car elle demande pour le moment d y consacrer beau
270. iel NooJ en minuscule une fin de paragraphe cas des phrases d butant par un tiret 3 8 M thodes mises au point 3 8 1 Algorithme du sac de mots 3 8 1 1 Origine L algorithme du sac de mots est utilis pour indexer les documents Cet algo rithme a t utilis l origine par P Zweigenbaum Zweigenbaum01 dans le cata logue CISMeF pour retranscrire les requ tes de l utilisateur qui sont faites en langage naturel en termes MeSH et ainsi permettre au syst me de proposer des documents correspondant a la requ te Cet algorithme reposait sur des donn es morphologiques Il a ensuite t modifi pour de ne plus utiliser de donn es morphologiques mais la phon misation Soualmia04 puis la d suffixation Nous avons aussi mis en place cet algorithme pour l indexation automatique des ressources sur le titre dans le cata logue CISMeF avec la participaion d A N v ol N v ol07b Cet algorithme est efficace pour le traitement des requ tes nous avons voulu le tester pour l indexation d un document en l occurrence d un ensemble de phrases et non plus d une requ te ou d un titre ainsi que pour l indexation multi terminologique en CIM10 SNOMED 3 5 CCAM MeSH et TUV et non plus uniquement en MeSH 3 8 1 2 Principe de la m thode Le but est d apparier des termes issus d une ou plusieurs terminologies a une phrase Pour cela dans un premier temps nous avons d termin quels l ments 91 C
271. ieur des documents afin de r aliser des traite ments informatiques statistiques comparaisons alertes etc Dans la base de donn es on retrouvera pour chaque entit d crite par le document les concepts qui peuvent lui tre associ s Nous appellerons cette indexation in dexation fonctionnelle L indexation des RCP l aide des thesaurus du Vidal et l indexation des dossiers m dicaux en CIM10 et CCAM sont des indexa tions fonctionnelles L indexation des RCP sert l enrichissement de la base de connaissances Vidal qui permet la g n ration d alertes dans les logiciels d aide la prescription Au niveau de l indexation du dossier patient l indexation en CIM10 et CCAM des s jours permet aux logiciels groupeurs d associer de mani re statistique un s jour un co t pour calculer le budget des h pitaux 2 3 2 Langage d indexation Un langage d indexation est un langage artificiel Dans le cadre de la recherche documentaire on utilise plut t le terme de langage documentaire Celui ci fournit une repr sentation formalis e et univoque des docu ments d un corpus et des sujets du domaine qui int ressent les utilisateurs Ce qui permet par la suite de rep rer rapidement des documents du corpus qui r pondent aux requ tes des utilisateurs Le MeSH a ainsi t cr pour indexer les articles scien tifiques dans le syst me MEDLARS syst me bibliographique biom dical automatis de stockage et de re
272. iff rentes t ches Il a la particularit contrairement d autres outils existants pour le fran ais de r aliser une indexation multi terminologique Il a demand le d veloppement d une base de donn es multi terminologique Trois m thodes d indexation compl mentaires ont t d velopp es la m thode du sac de mots le dictionnaire de termes et le dictionnaire de constituants Ces m thodes ont t associ es la cr ation de libell s d indexation pour chaque terme de chaque terminologie et une m thode d extraction automatique de variantes lexi cales partir de corpus afin d optimiser leurs performances Afin de tenir compte du contexte lors de l indexation n gations rubriques pa ragraphes nous avons ajout certaines m thodes Deux de ces m thodes ont t valu es dans la r alisation des t ches qui nous concernaient Trois m thodes de d suffixation ont galement t compar es Le Frenchtemmer de Lucene est apparu comme le meilleur outil pour le langage m dical Enfin l outil a t compar d autres outils d indexation donnant des r sultats satisfaisants Les applications potentielles de F MTT au sein des trois quipes ont t envi sag es Ainsi l outil sera ainsi int gr pour la soci t Vidal dans l outil d aide a l indexation des RCP BIBLIS Au sein du moteur de recherche CISMeF il sera uti lis pour l indexation automatique et semi automatique des ressources
273. ino logique Les termes retrouv s par le serveur de terminologies partir de la requ te sont rang s par ordre de pertinence par rapport la requ te Ce ser veur pourrait tre am lior en combinant les m thodes du serveur de BIBLIS et de F MTI cr ation du lien entre les termes d indexation et le fragment textuel du docu ment contenant l information index e et sa localisation visualisation de la couverture du document trait concern par l indexation cr ation des liens entres les termes intra et inter terminologies combinaisons de termes provenant d axes diff rents pour la SNOMED contextes pour les termes du TUV associations mot cl qualificatif type de ressource pour le MeSH associations des termes CCAM aux codes suppl mentaires 151 Chapitre 5 Applications du F MTI Section 5 5 Outil d aide l indexation g n raliste ajouts de commentaires pour un terme index possibilit de supprimer et d ajouter un terme de l indexation un terme peut tre reli plusieurs fragments textuels possibilit d indexer des tableaux et des figures gr ce aux outils de F Florea D autres formats de documents pourraient tre trait s possibilit de r utiliser les indexations de documents proches Les documents proches pourront tre d termin s par la m thode k PPV d A N v ol ou par la m thode de related articles de T Merabti ou par la fonctionnalit de
274. inologies eos a eee Hon CIM 10 dexation Automatique A PERO BINS CCAM en Multi terminologies SNOME Syst me d aide au codage UMLS Saoussen Sakji Interstis S Pereira IM Kergourlay Lecroq M Joubert Int rop rabilit S mantique Intra et Inter Terminologies en sant infobutton francais Connaissance Contextuelle P Massari S Pereira T Merabti FIGURE 6 1 Nouvelle organisation des projets de l quipe CISMeF les liens s mantiques de la SNOMED CT la CIM10 la SNOMED 3 5 et au MeSH Merabti08a Une tude est en cours pour int grer la CCAM VUMLS Mise en place d une recherche d information multi terminologique S Sakji s appuyant sur notre indexation multi terminologique Poursuite des travaux sur la recherche d information multi terminologique pour le dossier patient lectronique A Diouf Cette th se a aussi t l occasion d une collaboration pouss e avec le Dr P Massari qui rejoint l quipe pour continuer de d velopper des applications pour les syst mes d information hospitaliers et de sant 6 5 3 2 Une aide l indexation et des perspectives de logiciels hospita liers pour Vidal Les r sultats sont encourageants pour l indexation des RCP en TUV F MTI va galement int grer un logiciel d aide l indexation semi automatique BIBLIS Cet outil sera utilis par tous les indexeurs de l quipe donn es th rapeutiques du
275. inologies autour du m dicament puisque celles ci sont en cours d int gration dans F MTI par S Sakji Pour les autres terminologies le passage devrait se faire progressivement avec l aide du projet Interstis d marr en 2007 voir section 5 6 9 http www nlm nih gov medlineplus 10 Donn es Vidal 11 D nomination Commune Internationale 12 Code Identifiant de Pr sentation 13 Code d Identification de la Sp cialit 14 Classification Anatomique Th rapeutique et Chimique 15 Chemical Abstract Service 16 PIM est le r sultat d une collaboration entre l quipe CISMeF et la soci t Vidal Il est accessible ici http doccismef chu rouen fr servlets PIM 150 Chapitre 5 Applications du F MTI Section 5 5 Outil d aide l indexation g n raliste 5 5 Outil d aide l indexation g n raliste F MTI est un outil d indexation automatique multi document multi terminologique et multi indexation capable d indexer tout document texte l aide de cinq terminologies CIM10 CCAM SNOMED TUV et MeSH Pour une indexation plus pr cise d autres documents les rubriques indexer peuvent tre sp cifi es F MTT A priori n importe quelle terminologie pourrait tre index e par F MTI Pour rajouter une terminologie il suffit de l int grer la base de donn es multi terminologique de F MTI analyser de la structure de la terminologie et d finir les ressemblances avec le mod le
276. ion La comparaison de ces deux transcodages ou lt indexations gt a consist calculer la pr cision et le rappel Le transcodage manuel a t consid r comme la r f rence D une part nous avons r alis cette valuation en ne prenant en compte que les mots cl s MeSH voir figure 5 8 La similarit s mantique voir section 2 5 2 a t int gr e dans le calcul de la pr cision et du rappel afin de d finir la proximit des deux transcodages D autres part nous avons r alis l valuation en ne prenant en compte que les Cat gories Performances Pr cision Rappel 58 13 40 19 10 5 FIGURE 5 8 R sultats de la comparaison entre le trancodage effectu par l expert et celui produit par F MTI 31 La raison du choix ce cette m thode est qu elle seule tait impl ment e au moment de l tude 158 Chapitre 5 Applications du F MTI Section 5 8 Aide au transcodage m tatermes voir figure 5 9 La hi rarchie des m tatermes n tant pas tr s deve lopp e nous avons d cid de ne pas utiliser la mesure de similarit s mantique ici Pour la CCAM 7 389 codes Manuellement Automatiquement 1 2 8 698 paires lib ll s CCAM metaterme 13 946 15 400 0 4 m tatermes par code CCAM 0a11 lal0 Moyenne de 1 18 m tatermes pour chaque libell 1 89 2 08 Pour 126 libell s aucun m taterme n a t associ 150 0 Pr cision Rappel FIGURE
277. ion gt lt facteur gt et lt coagulation gt correspondent aux d rivations flexions et synonymes des lemmes lt diminution gt lt facteur gt et lt coagulation gt contenus dans le dictionnaire de lemmes lt MVP gt est le dictionnaire des mots de liaison 983 mots vides s l ctionn s pour cette tache dont le tiret Ce transducteur ne prend pas en compte l ordre des mots Ces transducteurs utilisent un dictionnaire de lemmes 38 219 entr es qui lt diminution gt lt facteur gt lt coagulation gt lt diminution gt lt facteur gt lt coagulation gt lt diminution gt lt facteur gt lt coagulation gt FIGURE 3 13 Exemple de transducteur morphologique r alis avec le logiciel NooJ pour le terme diminution des facteurs de coagulation contient pour chaque lemme identifi dans la terminologie TUV leurs flexions de rivations et synonymes asthmes asthme X Ce dictionnaire a t cr partir des dictionnaires m dicaux et g n raux Morphalou t ce lexique contient 590 020 formes fl chies associ es leurs lemmes Lexique 3 Lexique 3 est une base de donn es qui fournit pour 137 405 mots du fran ais le lemme associ 55 000 lemmes MeSH N v ol05a ce dictionnaire contient 44 856 variantes pour la termino logie MeSH UNITEX poss de un dictionnaire pour le fran ais de 683 824 mots avec leurs lemmes 102 073 lemmes NooJ Silb
278. ion d une famille pharmaco th rapeutique peut r diger des r gles d indexation exemple pour les AINS ne pas d tailler la liste des indications th rapeutiques cit es apr s lt notam ment gt Les autres rubriques non index es sont int gr es avec l int gralit des donn es texte du RCP 2 4 2 3 Thesaurus Unifi du Vidal TUV Au fil des ann es et des besoins l quipe scientifique du Vidal a cr 4 the saurus Indications Contre indications Effets secondaires et Pr cautions d emploi Ces thesaurus permettent de d crire les diff rentes propri t s pharmacologiques et th rapeutiques des sp cialit s pharmaceutiques 2 Ces propri t s sont contenues dans le RCP correspondant la sp cialit Ces thesaurus poss dent des transcodages vers la CIM10 le DRC 7 et la CISP En 2004 a d but l uniformisation de ces 4 thesaurus afin de cr r un thesaurus unique le TUV Thesaurus Unifi Vidal Cette unification devrait am liorer les fonctionnalit s de recherche et d alertes dans les produits Vidal enrichir les connais sances de la base et faciliter la gestion grace un seul thesaurus Il s agit d une volution devant aboutir a la construction d une ontologie r sultat d une structu ration plus fine des termes et de la cr ation de relations s mantiques entre ces termes Dans le TUV les termes sont hi rarchis s A chaque position dans la hi rarchie se trouve un code ainsi qu
279. iquants une indexation manuelle sont des outils d aide la recherche dans les diff rentes terminologies Bouchet99 Berthelot05 Il en existe beaucoup les diff rences se situent dans le type de recherche propos qui peut aller de la navigation simple dans la hi rarchie une interpr tation plus ou moins in telligente d une requ te de l utilisateur Les outils WEBCCAM WEBCIM de la soci t Web100t Lewandowski08 CODAZ par le Dr P Frutiger et l outil du Dr J Ruiz sont de bons exemples d outils d aide a la recherche intelligents pour la CCAM et la CIM10 Nous pouvons aussi citer ici le serveur de terminologie CISMeF pour la terminologie CISMeF et MeSH Thirion07 D autres outils plus labor s permettent d extraire directement les termes d in dexation partir d un compte rendu m dical Nous pouvons distinguer trois sortes d outils les outils permettant une indexation monoterminologique directe Exemple CIREA MeSHMapp MAIF Snocode et un outil du Japon pour la CIM10 japonaise Amaraki07 une m thode hybride qui selectionne la m thode utiliser par rapport une entr e donn e les outils permettant une indexation monoterminologie indirecte c est dire partir d un transcodage Exemple Nomindex dictionnaire ADM gt MeSH Pouliquen02 MedCKARe ontologie pneumologie gt CIM10 les outils permettant une indexation multiterminologique Ici deux approches peuvent tre ide
280. ique La CIM10 a pr vu des liens horizontaux entre termes de sa hi rarchie appel s ap pariements dagues et toiles ou syst me de la dague et de l ast risque I permet 41 La CIM11 comprendra pour chaque terme une d finition 50 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation d attribuer deux codes a des diagnostics lorsque ceux ci contiennent des informations concernant a la fois une maladie g n ralis e initiale et une manifestation localis e a un organe donn qui en est elle m me un probl me clinique Le code primaire est utilis par la maladie initiale dague et un code suppl mentaire facultatif pour la manifestation ast risque La figure 2 13 montre un exemple IN33 0 Cystite tuberculeuse A18 1 manifestation A18 1 Tuberculose de l appareil g nito urinaire Tuberculose de vessie N33 0 maladie FIGURE 2 13 Extrait de la classification CIM10 pr sentant un exemple d ast risque syst matique 2 4 3 3 La Classification Commune des Actes M dicaux CCAM La CCAM Rodrigues05 est le r f rentiel des actes m dicaux qui remplace pour les m decins la Nomenclature G n rale des Actes Professionnels NGAP en sec teur lib ral et le Catalogue Des Actes M dicaux CDAM en secteur hospitalier fran ais Elle permet la tarification des actes en m decine lib rale labor e par la CNAMTS
281. ique des Terminologies dans les Syst mes d Information de Sant Fran ais d but en 2007 a pour but d am liorer et d accro tre l interop rabilit s mantique entre les terminologies dans les syst mes d information de sant fran ais Le projet propose la cr ation d un Serveur Multi Terminologique en Sant 20 17 en cours de mise en place chez Vidal 18 Projet ANR 07 TECSAN 010 02 Les partenaires de ce projet sont Le LERTIM de Marseille l quipe CISMeF du CHU de Rouen et du LITIS l INSA de Rouen la soci t Vidal la soci t Mondeca 1 la soci t M modata le CHU de Saint Etienne et de Lille et l organisation HON Ch 20 Les fonctionnalit s offertent par le SMTS s apparentent celles disponibles partir du serveur 153 Chapitre 5 Applications du F MTI Section 5 6 Int gration un serveur multi terminologie SMTS voir figure 5 5 permet l acc s centralis et ais aux informations telles que libell s d finitions liens entres les termes etc Les terminologies d int r t sont celles traduites en fran ais et les plus usit es dans le monde m dical les m mes qu la section pr c dente voir le sch ma 5 5 UMLS FIGURE 5 5 Liste des principales terminologies m dicales en langue francophone int gr es au SMTM et les relations entre elles en rose terminologies non int gr es au m tathesaurus de l UMLS Le projet consiste d velopper une interfa
282. ir Listes_des_ mots normalis s non_pertments txt Pour chaque mot normalis de Liste mots normalis s faire Si mot normalis n existe pas dans Listes des mots normalis s non pertments txt alors Liste mots normalis s dimmer Liste mots normalis s mot normalis FinSi FinPour Ranger par ordre alphab tique Sac_de_mots ranger par ordre alphab tique Liste mots normalis s Production des comb maisons ouvri Table les termes Pour talle taille Sac de mots taille 1 faire tableau _combinaisons combinaisons Sac de mots taille Pour chaque combinaison de tableau _combmaisons faire Si combinaison sac_de mots d un terme dans Table les_termes alors proposition d indexation ajouter proposition_d indexation code terme Recherche transcodage Pour chaque combinaison de tableau combinaisons faire Si code a des transcodages dans Table les relations mter termmologies alors proposition d mdexation ajouter proposition d indexation code terme Retourner proposition_d mdexation Fin FIGURE 3 11 Algorithme du sac de mots 93 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point Les ponctuations ne constituent pas les mots mais sont de bons indicateurs de s paration de mots Ils seront limin s en deux temps except pour les tirets qui seront maintenus pour les mots compos s Un mot est s par d un autre mot par un espace ou un apostrophe e
283. ir figure A 3 voici quelques indications Classe des Termes syst matiques cette classe d finit tous les termes syst matiques de la classification CIM10 Quelques commentaires la terminologie source des termes CIM10 est donn e par l attribut source FR OMS EN OMS GE DIMDI GE AUTO FR CHRONOS ICDI0DUT ICDIOAMAE ICD10AM ICDIOAE ICD10 L attribut niveau quand lui d finit le niveau du code CIM10 C cha pitre G bloc U sous bloc K cat gorie S sous cat gorie D subdivision ou descripteur L local Classe des Descripteurs cette classe d finit tous les descripteurs d crivant les termes syst matiques de la classification CIM10 Quelques commentaires Il y a de 0 n descripteurs pour chaque terme de la classification CIM10 Classe des R f rences cette classe d finit toutes les r f rences li es des termes syst matiques et descripteurs de la classification CIM10 Classes des Inclusions cette classe d fini quels sont les libell s de type lt comprend gt associ s certains termes syst matiques de la classification Quelques commentaires l attribut code d signe le code CIM10 tu terme syst matique et l attribut libell le libell du terme inclus Classes des Exclusions cette classe identifie pour un terme syst matique toute exclusion d un autre terme Quelques commentaires l attribut code d signe le code CIM10 du terme
284. is Medline regroupant aujourd hui plus de 10 millions d articles en anglais Elle est utilis e depuis pour l indexation et le cata logage par les biblioth ques et d autres institutions travers le monde exemple CISMeF en France Elle a t traduite en 11 langues fran ais anglais espagnol portugais L IN SERM Institut National de la Sant Et de la Recherche M dicale participe la constitution du MeSH en traduisant celui ci en fran ais partir du MeSH am ricain en fran ais et en r alisant sa mise jour en fran ais Une nouvelle version appara t tous les ans la derni re en date est la version 200822 Nous avons utilis dans nos travaux la version 2007 Un transcodage vers la CIM10 et la CCAM a t r alis a partir de la version 2007 Pereira07 par l quipe CISMeF La hi rarchie du MeSH est une hi rarchie a 11 niveaux avec des relations de sp cialisation g n ralisation et tout partie divis e en 15 arborescences th matiques auxquelles correspondent un code sp cifique exemple l arborescence th matique lt maladie gt est associ e au code C voir figure 2 5 pour consulter toutes les arbores cences A chaque position dans la hi rarchie correspond un terme pr f r suivi ventuellement de synonymes L ensemble repr sente plus de 100 000 termes Il existe plusieurs types de termes les descripteurs les qualificatifs et les concepts chimiques suppl mentaires Dans sa ver
285. jour Dans le domaine de la sant de nombreux travaux et notamment ceux du labo ratoire LERTIM s int ressent l laboration de syst mes d information hospitaliers performants Le dossier m dical informatis est l une des composantes du syst me d information en r seaux de l h pital Ce dossier permet de recueillir pour chaque patient toutes les informations qui ont trait son tat de sant et son parcours de soin Le recueil des donn es concernant l activit de l h pital les pathologies trait es par exemple et son mode de fonctionnement exemple mode de prise en charge permettent de d finir les financements n cessaires l h pital Les donn es receuillies sont ind x es l aide des terminologies CIM107 pour les diagnostics et CCAM 1 Accessible via http www ncbi nlm nih gov pubmed 2 Accessible via http www hon ch index_f html 3 Accessible via http www intute ac uk healthandlifesciences medicine 4 Catalogue et Index des Sites M dicaux Francophones accessible via http www chu rouen fr cismef 5 Accessible via http www theriaque org 6 Accessible via http www bdsp ehesp fr 7 Classification Internationale statistique des Maladies et des probl mes de sant connexes 10 me r vision 8 Classification des Actes M dicaux Chapitre 0 Introduction g n rale Section 0 4 Objectifs pour les actes De plus l utilisation d une nouvelle terminologie la
286. l avenir 3 10 Fusion des indexations produites par les trois m thodes Les trois m thodes algorithme du sac de mots dictionnaire de termes et diction naire de constituants ont t cr es afin d tre compl mentaires Tous les termes index s par les trois m thodes sont donc agr g s afin d avoir une indexation la plus compl te possible Les termes pourraient tre pond r s selon la m thode d obtention La m thode du dictionnaire de termes extrayant des variantes valid es les termes obtenus gr ce cette m thode pourraient tre assign s d un poids suppl mentaire 2 au lieu de 1 pour les autres m thodes Pour l instant notre outil ne propose qu une m thode simple d agr gation mais dans l avenir la m thode pourra tre tendue Par exemple la proposition d indexa tion de la m thode du dictionnaire de termes pourra permettre d liminer des termes propos s par les autres m thodes 3 11 Restriction une ou plusieurs terminologies Les termes sont ensuite restreints aux termes quivalents appartenant aux termi nologies d indexation choisies par l utilisateur Afin de r cup rer les termes proches nous utilisons les diff rents transcodages existants entre nos cinq terminologies qui fournissent des liens de synonymie et d quivalence Les transcodages entre les terminologies MeSH CIM10 et SNOMED sont ex traits du m tath saurus de l UMLS version 2007ac Ces transcodages sont
287. l peut aussi tre capable de faire res sortir rapidement et partir d une masse de donn es h t rog nes et dispers es des informations et des connaissances difficiles tablir par le praticien et qui peuvent confirmer ou infirmer ses choix L apport d un tel syst me est une compl mentarit l expertise du m decin Il est souligner aussi qu il constitue galement une aide l harmonisation des pratiques et l auto formation des praticiens Les syst mes d aide la d cision m dicale permettent de pr dire et pr venir Ces syst mes peuvent tre passifs le m decin fait appel au syst me lorsqu il en a besoin semi actifs le syst me se d clenche de mani re automatique par exemple le syst me peut d clencher des alarmes pour signaler des valeurs anormales Le m decin peut par la suite interagir avec le syst me actifs ils se d clenchent automatiquement sans intervention du praticien partir des informations entr es par l utilisateur le syst me peut alors r pondre en donnant un conseil diagnostique ou th rapeutique Il peut aussi fonctionner en mode critique l utilisateur fournit des informations sur le patient et la strat gie mise en oeuvre par le praticien le syst me peut d s lors mettre des critiques sur les propositions du praticien Par exemple les syst mes d aide la th rapeutique ont prouv leur efficacit pour am liorer la qualit des prescription
288. la base unifi e des concepts m dicaux I com prend des synonymes des variations lexicales et des concepts associ s afin de dresser la liste de tout le vocabulaire des expressions m dicales disponibles Il fallu pour cr er ce m tath saurus regrouper sous un m me concept les diff rents termes qui expriment le m me concept Sherertz90 par exemple les termes lt Atrial Fibrillation gt du MeSH lt Atrial Fibrillation gt de la termi nologie PSY lt Atrial Fibrillationss du MeSH Auricular Fibrillation gt de la terminologie PSY lt Auricular Fibrillationss du MeSH appartenant diff rentes terminologies doivent tre regroup s sous le m me concept lt Atrial Fibrillation gt voir figure 2 4 Chaque concept dans le Metathesaurus a un iden tifiant unique et permanent CUI Concept Unic Identifier Si un terme MeSH un terme SNOMED et un terme CIM10 sont associ s au m me CUI alors c est qu ils sont quivalents en sens ou synonymes on dit alors qu ils sont reli s par une relation de transcodage A chaque concept correspond une d finition un terme pr f rentiel ventuellement des termes synonymes des variantes lexicales un ou plusieurs types s mantiques et un identifiant unique le CUI A chaque terme int gr partir d une terminologie ext rieure est attribu un type s mantique son code dans la terminologie source le CUI auquel il est associ Le m tathesaurus 2007AA est riche de p
289. la recherche documentaire l information est envisag e ici du point de vue du document Le syst me de recherche d information dans ce cas va proposer l utilisateur une liste de documents dans lesquels il est suppos trouver lin formation dont il a besoin apr s une recherche dans un ou plusieurs fonds de documents plus ou moins structur s Pour trouver les documents correspon dant la requ te il faut que les m tadonn es associ es aux documents et la requ te de recherche soient exprim es dans le m me langage voir figure 2 1 On appelle cela le langage d indexation Les documents sont pr alablement in dex s l aide de ce langage et la requ te sera traduite dans le m me langage Les index des documents stock s en base correspondants le mieux la requ te initiale seront propos s l utilisateur L indexation permet ainsi d viter de 1 Mis en ligne ici http www univ u 3mrs fr 21 Chapitre 2 tat de l art Section 2 2 Fondements de la recherche d information et des bases de connaissances passer en revue tous les documents chaque nouvelle question On retrouve ce type de recherche dans des catalogues ou des bases de donn es bibliographiques sur Internet CISMeF Medline ou OMNI Utilisateur Besoin d Information Porte un Jugement sur Exprim par Langage libre Langage d indexation Pos z se a posteriori et stocke R alis en temps r el CORON sont une
290. le pour un document consiste appliquer le post traitement la somme de toutes les indexations finales pour toutes les phrases qu il contient 3 13 Param tres et l ments en sortie 3 13 1 Param tres F MTT peut indexer un document l aide d une ou plusieurs des trois m thodes selon le choix de l utilisateur Il permet une indexation sp cifique pour les RCP les comptes rendus d hospita lisation et les sites web S il est indiqu que les documents en entr e sont des RCP l indexation produite par F MTI tiendra compte des rubriques usuelles du RCP et utilisera le TUV Pour les sites Web l indexation s effectuera en MeSH et pour les comptes rendus d hospitalisation les rubriques sont prises en compte et elle s effec tuera en CIM10 CCAM et SNOMED L utilisateur peut choisir d effectuer une indexation mono ou multi terminologique Dans les deux cas les terminologies prises en compte peuvent tre param tr es 3 13 2 Sortie En sortie F MTI g n re deux propositions d indexation l une pour chaque docu ment l autre pour chaque phrase Pour chaque document sont pr sent s rubrique paragraphe phrase et l indexation propos e L indexation renseigne les termes in 112 Chapitre 3 Conception de l extracteur multi terminologique Section 3 14 Conclusion dex s avec leur source leur type leur d coupage en lemmes ou st mes et leur taille NomRubrique N paragraphe Phrase N
291. le thesaurus MeSH un gros travail a t r alis par l quipe CISMeF afin de d finir un maximum de variantes et de synonymes Les lexiques Pour les termes de composition terme dont le sens est compositionnel exemple Sens infarctus du myocarde Sens infarctus Sens myocarde de nouvelles va riantes peuvent tre d couvertes partir de lexiques simples exemple la notion d lt infarctus du myocarde gt est compl tement d rivable de celle de lt infarctus gt et de lt myocarde gt Ces genres de lexique sont tr s complets en anglais pour le domaine m dical CE LEX Burnage90 un lexique pour la langue g n rale le SPECIALIST Lexicon de L UMLS voir section 2 3 2 En fran ais le projet UMLF Zweigenbaum03 a consist a cr er un lexique m dical francophone unifi ceci partir de ressources incompl tes et dispers es Zweigenbaum90 Baud92 Zweigenbaum01 et en en g n rant de nouvelles De nouvelles variantes inclure au lexique peuvent tre apprises automatique ment partir des terminologies elles m mes Baud97 Zweigenbaum98 Grabar00 ou partir des lexiques eux m mes avec des m thodes d amor age partir de lexiques existants Gaussier99 de d composition pour les mots de composition exemple ad no glande ou ganglion myo muscle card coeur Hathout02a Namer00b Lovis96 partir de corpus Xu98 Jacquemin97 Hathout02b Les grammaires Des
292. lective et cibl e d information avec l avertissement de l utiliateur de l apparition de nouvelles informations sur un ou plusieurs sujets selon son profil par courriel par exemple 16 Ils ont fait l objet d un brevet universitaire 17 Tres Petite Entreprise innovatrice travaillant dans l ing nierie sant sociale Gr ce la loi Allegre de 1999 les 9 co auteurs de ce projets l quipe CISMeF ainsi que l Universit recevront des fonds par la companie IS S Le prix des boutons contextuels a t stim 5 10 par lit d h pital 175 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 3 Recherche par sp cialit m dicale ite yat Ming jaoin tend Gah Samer Fate 2 A ee tm u 11015 DE A EREET x CBOs SAM In Rd Sn 0 RE o wo mr WO sue ut Wi rere mn Aanes anma matie Sta Lg teama mie JE mise na 2 06 FIGURE 7 4 Compte rendu d hospitalisation provenant du service de Cardiologie du CHU de Rouen avec le bouton CISMeF dans la barre d outil De nombreuses tudes ont montr que l InfoButton fournit des r ponses dans les unit s de soins de mani re satisfaisante avec un temps satisfaisant et avec un haut niveau de satisfaction des utilisateurs Cimino06 Maviglia06 Un exemple de succ s de l infobutton a montr une utilisation de plus de 80 000 fois pour 3 590 utilisateurs en 5 ans l Intermountain Healthc
293. les plus pr cis sont donc privil gi s par rapport aux termes moins pr cis qui sont limin s Ainsi si dans notre proposition d indexation un terme et son fils sont retrouv s alors le terme p re est limin De m me les sacs de mots sont analys s pour chaque terme index Les termes ayant un sac de mots inclus dans un autre sont limin s les r gles sp cifiques chaque terminologie Pour la CIM10 notre indexation CIM10 est purement descriptive et non m dico conomique elle n int gre donc pas les r gles de codage PMSI Pour le MeSH si un terme et un qualificatif qui lui est affiliable sont index s alors ils sont appari s Tous les qualificatifs n tant pas appari s sont limin s De plus certains termes ne sont pas utilis s pour l indexa tion parce qu ils sont susceptibles d tre index s pour la plupart des ressources alors que leur indexation n est pertinente que dans de rares cas exemple lt conseil gt lt maladie gt lt m decine gt lt informatique gt Il en existe 18 une nouvelle liste est en cours d laboration Ces termes sont limin s de la proposition d indexation Pour les autres terminologies pour la SNOMED et le TUV ces termi nologies n ayant encore jamais t index es en routine aucune r gle d in dexation n existe Pour la CCAM seules des r gles de codage m dico conomiques existent aucune pour un codage descriptif L indexation fina
294. les transcodages entres terminologies CCAM MeSH et CCAM_MTCISMeF voir section 5 8 1 SNOMED CIM10 TUV MeSH TUV CIM10 Elle int gre aussi toutes les rela tions inter terminologiques comprises dans l UMLS tel que les liens de trans codage SNOMED CIM10 SNOMED MeSH et MeSH CIM10 Les attributs Les attributs codel et code2 d signent les deux codes impliqu s dans la re lation Les attributs STYPE1 et STYPE2 indiquent chaque type de code impliqu dans la relation valeurs AUI CODE ou CUI 198 Chapitre A Annexes Section A 3 Mod le g n ral Les attributs SAB1 et SAB2 d signent les terminologies sources de chaque code valeurs SNMI TUV UMLS CCAM CIM10 ou MeSH Enfin l attribut relation renseigne le type de la relation liant les deux codes Modifications apport es les relations lt transcodage gt et lt appartenance un groupe gt ont t ajout es pour le TUV Classe des Relations But Cette classe pr cise les relations secondaires qui peuvent exister entre les relations elles m me Elle est inspir e de la table MRHIER Computable Hierarchies de YUMLS Les attributs Les attributs relation1 et relation2 d signent les relations impliqu es et l at tribut type relation indique le type de relation qui existe entre ces 2 relations Enfin l attribut attribut _ relation renseigne le type s mantique de la relation Classe des Relations intra terminologies But Cette classe renseign
295. li e par des relations de transcodage la CIM10 Un travail a t r alis tr s r cemment par un doctorant de l quipe CISMeF Merabti08a pour transposer ces relations de la SNOMED CT la CIM10 Une future version de F MTT int grera ces r gles et ces relations Une autre solution peut tre d utiliser les actes m dicaux les co occurences entre les codes CIM10 et CCAM et les liens s mantiques entres eux ou les pres criptions Ceci peut permettre d identifier les diagnostics importants qui ont demand un acte m dical ou une m dication appropri e De futures valuations testeront ces m thodes Enfin une derni re solution serait d int grer les travaux de P Avillach Avillach08a utilisant les relations s mantiques de l UMLS afin de d terminer les diagnostics les plus importants les erreurs li es au contexte les probl mes de n gation induisent des erreurs d indexation Les n gations ne sont pas prises en compte par l algorithme du sac de mots S il est not dans un compte rendu lt Le patient n a pas d asthme gt le terme lt asthme gt est index par F MTI alors qu il ne l est pas par l indexeur humain Ceci contribue faire diminuer la pr cision Les autres m thodes d velopp es prenant en compte la n gation le dictionnaire de termes et le dictionnaire de constituants pourront pallier ce probl me Un autre contexte pose probl me le contexte d un diagnostic touchant un proche ou une
296. li es la m thode du sac de mots voir section 3 8 1 De plus des termes lexicalement proches peuvent tre des maladies diff rentes des probl mes de transcodage qui lient des concepts non quivalents avec des degr s de pr cision diff rents Le transcodage CIM10 MeSH a t analys Nous avons pu mettre en vidence un nombre important de diff rence de granularit ou de sens entre les concepts li s par ces relations de transcodage De plus les transcodages ne lient pas les codes extensions codes 5 digits puisque ce transcodage est issu de la CIM10 anglaise qui ne contient pas ces codes F MTI ne peut lt raisonner gt comme un m decin et ne peut pas associer des l ments provenant de diff rents endroits du compte rendu Il sera donc n cessaire d impl menter des r gles m dicales afin d indexer correctement les comptes rendus Qualit de l indexation diff rente selon les secteurs La qualit de l in dexation automatique CIM10 d pend du secteur dans lequel celui ci est effectu Ainsi une pr cision plus lev e 4 0 vs 3 0 et un rappel plus faible 19 9 vs 35 7 sont obtenus pour les comptes rendus de Pneumologie Cette disparit peut s expliquer par la diff rence de contenu Les rubriques renseign es ne sont pas les m mes exemple les comptes rendus de Pneumologie contiennent le motif d hospi talisation la diff rence des comptes rendus de Cardiologie Les m decins ont des fa ons
297. liquer les r sultats L expert a assign des m tatermes dans un objectif de recherche dans un dossier m dical fond sur la pratique m dicale alors que les m thodes automatiques se fondent sur les relations m taterme CISMeF mots cl s MeSH qui avaient t originellement utilis es dans un objectif de recherche documentaire dans CISMeF Les m tatermes utilis s sont proches des sp cialit s m dicales dont les contours ne sont pas toujours tr s bien d finis et d pendent de pratiques lt locales gt Une grande variabilit inter expert dans l assignation de ces m tatermes est dans ce cadre tout fait vraisemblable 159 Chapitre 5 Applications du F MTI Section 5 9 Aide au transcodage Certains mots cl s sont retrouv s dans plusieurs arborescences MeSH li es s mantiquement plusieurs m tatermes Certains de ces m tatermes peuvent ne pas s appliquer pour certains actes ou maladies tr s sp cifiques L expert choisit parfois d englober les diff rents concepts inclus dans les libell s dans un m taterme beaucoup plus g n ral Le transcodage CIM10 MeSH peut produire des termes MeSH plus pr cis ou plus globaux que ceux utilis s originellement dans les libell s CIM10 Seul 8 9 de la CIM10 est transcodable en MeSH il n est donc pas possible de g n rer automatiquement les m tatermes associ s tous les termes de la CIM10 avec cette technique N anmoins parmi les 1 000 cod
298. lles sont issues des donn es UMLF Des ajouts ont aussi t effectu s de mani re manuelle et semi automatique bases de synonyme MeSH et CISMeF traduction automatique traitement de certaines expressions r currentes La m thode K PPV K Plus Proches Voisins extrait l indexation MeSH de documents dont le titre est proche de celui de la ressource indexer Les documents proches contiennent au moins un mot pertinent du titre du document indexer 61 http www healthlanguage com 62 A N v ol effectue un post doc au Lister Hill NLM L quipe CISMeF et moi m me continuons collaborer activement avec elle voir liste des publications issues de cette th se 63 Logiciel permettant la cr ation et l application de dictionnaires ainsi que des tranducteurs 64 Langage courant Chapitre 2 tat de l art Section 2 5 Aide l indexation Pour chaque titre extrait le calcul d un score de similarit utilisant la distance de Levenshtein Levenshtein66b est calcul afin de ne retenir que les k premiers La fusion des m thodes consiste regrouper les indexations produites et sommer les scores obtenus dans les deux m thodes Les termes sont enfin rang s dans l ordre d croissant Un seuil permet de d tecter une rupture dans la continuit des scores et donc dans la pertinence des candidats propos s Abdallah98 L indexation automatique produite par MAIF a t compar e celle produite manuellemen
299. lt chronologie gt et la recherche orient e lt sp cialit s gt pour les comptes rendus du dossier patient lectronique 4 Rouen CDP2 ont t compar es Un tiers de ces comptes rendus contient plus de 20 s jours et plus de 20 actes m dicaux enregistr s L valuation a montr des r sultats consid r s satisfaisants pour l quipe CISMeF et les m decins rouennais m me si une vision d ensemble de l tat du patient est parfois n cessaire dans certains cas C est ainsi que cet outil de vue par lt sp cialit gt a t int gr dans un environment de production dans le dossier patient lectronique du CHU de Rouen en mai 2007 Cette vue est actuellement utilis e quotidiennement par les m decins avec des r actions positives 1 L efficacit des vues orient es a t observ e par plusieurs auteurs Dore95 Zeng99 Plus r cemment une deuxi me g n ration de ce type d outil utilise une ontologie pour d finir la structure orient e lt probl me gt du dossier patient ainsi que les concepts fondamentaux qui y sont rattach s Elisabeth02 D autres outils uti lisent une vision graphique des probl mes avec la repr sentation des pisodes li s chaque probl me sur une chelle de temps Brainbridge96 ou par un sch mas du corps humain repr sentant les r gions atteintes par les probl mes m dicaux du pa tient Sundvall07 ou les travaux de J B Lamy Lamy06 Pour chaque patient le dossier peut tre pr sent
300. luation secondaire de la qualit de l indexation produite est donc n cessaire L analyse secondaire de l indexation multi terminologique par un indexeur CIS MeF a montr l int r t de F MTI comme aide l indexation manuelle 4 5 des descripteurs MeSH valu s ont t consid r s comme ayant un impact positif sur la recherche d information Ces termes n ont pas t assign s manuellement et auraient d l tre 15 9 des descripteurs valu s ont t consid r s comme ayant un impact mineur ils auraient pu tre assign s la ressource en plus des descripteurs assign s manuellement Nous trouvons que 79 6 des termes extraits par F MTI consid r comme du bruit car non index s par les indexeurs humains taient effectivement du bruit et avait un impact n gatif Donc nous pouvons penser que la pr cision de F MTI est en fait meilleure que ce que nous avions valu Nous avons pr vu plusieurs changements pour am liorer les performances du F MTI la correction des transcodages et l utilisation d lements de contexte et de r gles d indexation Ranger les termes par ordre d importance permettra de dimi nuer le bruit F MTT incluant la multi terminologie et la d suffixation sera bient t int gr l environment de production de CISMeF Comparaison d autres outils MTI Aronson00 produit une pr cision de 29 et un rappel de 55 pour l indexation des titres et r sum s d articles Medline La pr ci
301. lus d 1 3 millions de concepts et de 6 4 millions de noms de concepts uniques Ces concepts sont reli s par 10 millions de relations h rit es des terminologies sources et de plus de 2 millions de termes diff rents dont 22 500 seulement en langue frangaise grace entre autre au projet VUMeF Darmoni03b qui avait pour objectif d augmenter la part du fran ais dans l UMLS Ce metathesaurus est le creuset de plus de 100 18 Les donn es de l UMLS sont accessibles et t l chargeables sous respect des droits sur le site UMLSKS http umlsks nlm nih gov 32 Chapitre 2 tat de l art Section 2 3 D finition de l indexation et du codage terminologies biom dicales dont le MeSH la SNOMED RT CT et 3 5 la CIM9 CIM9CM et la CIM10 dans 17 langues pour plus d informations sur la structure de l UMLS voir Annexes A Atoms AUIs Concept CUI Terms LUIs Strings SUIs RRF Only 40027665 Atrial Fibrillation from MeSH C0004238 Atrial Fibrillation preferred Atrial Fibrillations Auricular Fibrillation Auricular Fibrillations L0004238 Atrial Fibrillation preferred Atrial Fibrillations 0016668 Atrial Fibrillation preferred A0027667 Atrial Fibrillation from PSY A0027668 Atrial Fibrillations from MeSH 0016669 Atrial Fibrillations 40027930 Auricular Fibrillation from PSY 0004327 synon
302. m 08 FE2aDeS ON M DICALE VASTE B do TER 2006 wy 140 CLM FM UMOLOGAQUE SALLE GAMMOMER du 12 7 2008 a t CHR GERERAL CAD LANIE HOI MONDO dx OA CAUSE u 220 1 ONAMO SALLE GRAMME ds 27 2008 a MA SAULNGENCES MLDICALLS de IPODA ma 21 060 MOULE CONS SATION 0 11 0 2008 a STIR MUPMEOCCODE CONSULTATIONS ou TAVIT ou UV MEPMPEL DK CON DLL LA FINS cs 2h 702009 ou VIW T WPL CONTE CATIONS du TRANS as EVOL GEIMATING MEDCORE STERN D HOP SA ae LOL OED mu TO T MOPMICLOGE CONTA TATIONS Ou IANI ou DRIED COPA TROL MEST CINE WATICERNT PG HOP SEM ay L ATLAS ae TY CAPATRR MELE OME INTERNE BG HOP SEM as ay aft o fiche diagnostic perep para Identification de l utilisateur FIGURE A 8 Ecran de connexion de l utilisateur au logiciel CDP2 et acc s aux diagnostics s jours d un patient Tae IA BON MAN OCT ONE mir Ogee IC OMEF f 7 ross rome ds amen 1 mn pes Fa com FIGURE A 9 Codages CIM10 du compte rendu d hospitalisation avec le bouton CISMeF pour le diagnostic lt agranulocytose gt terme MeSH transcod du terme CIM10 lt Agranulocytose gt cod D70 lt recomman dations gt est s lectionn car l utilisateur est un m decin Une liste de documents appropri s et personnalis s est alors propos e sur le site Connexion en tant que patient Si Putilisateur est un patient et qu il consulte le m me dossier et le m me diag nostic il sera dirig vers la page CISMeF correspondant
303. maladies et des probl mes de sant connexes dixi me r vision volume 1 Technical report Gen ve OMS 1993 Paice C Method for evaluation of stemming angorithms based on error counting Journal of the American Society for Infor mation Science 1996 47 632 349 Pappa A Bernard G Ouekeradi H D tection automatique de fronti res de phrases Un systeme adaptatif multi langues Permanent online Journal of Information and Communica tion Technologies ISDM Informations Savoirs D cisions et M diations 2004 13 Paternostre M Francq P Lamoral J Wartel D M S Carry un algorithme de d suffixation pour le fran ais http sicul bacbe research is galilei carry 2002 Patriarche R Gedzelman S Diallo G Bernhard D Cyr Gabin B Ferriol S Girard A Mouries M Palmer P Simonet A Simonet M Noesis Annotation Tool un outil pour l anno tation textuelle et conceptuelle de documents Ingenierie des Connaissances IC 2005 2005 15 16 Pereira S Massari P Darmoni S Evaluation of a method for automatic mapping between French procedure terminology CCAM and MeSH Non publi mais sera soumis dans un prochain congr s 218 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Pereira06 Pereira07 Pereira08a Pereira08b Pereira08c Pereira08d Petitpierre94 Pillou06 Pisani08 Plovnick04 Porter80 Pouliquen02 Prieur07 Rector03 Pereir
304. matique lt chutes gt de code W00 W19 fait r f rence au terme lt tableau des codes du lieu de l v nement gt tableau contenu dans le livre de la CIM10 volume 1 des inclusions et exclusions chaque niveau chapitre cat gorie sous cat gorie la CIM10 peut indiquer des inclusions indiqu es par le terme lt comprend gt ou des exclusions indiqu es par le terme lt a l exclusion de gt permettant d orien ter vers une autre partie de la classification le code de renvoi se trouvant entre parenth ses voir figure 2 12 Le code excluant et le code exclu sont alors li s par un libell d exclusion Certaines maladies infectieuses et parasitaires A00 B99 Comprend les maladies consid r es habituellement comme contagieuses ou transmissibles terme d inclusion A exclusion de certaines infections localis es voir les chapitres relatifs aux divers syst mes appareils et organes terme d exclusion indirecte infections sp cifiques de la p node p nnatale l exception du t tanos n onatal de la syphilis cong nitale des infections p rinatales gonocoques et des maladies p nnatales dues au virus de limmunod fcience humaine VIH P35 P39 terme d exclusion code de renvoi Infections sp cifiques de la p riode p rinatale P35 P59 terme exclu FIGURE 2 12 Extrait de la classification CIM10 pr sentant pour un terme syst matique les exclusions et inclusions auquel il renvoi terme syst mat
305. matique du langage de la multi terminologie et les appliquer au travers de r alisations concr tes 186 Annexe A Annexes A 1 UMLS CUI Unique identifier for concept LAT Language of term TS Term status LUI Unique identifier for term STT String type SUI Unique identifier for string ISPREF Atom status preferred Y or not N for this string within this concept AUI Unique identifier for atom variable length field 8 or 9 characters SAUI Source asserted atom identifier optional SCUI Source asserted concept identifier optional SDUI Source asserted descriptor identifier optional SAB Abbreviated source name SAB TTY Abbreviation for term type in source vocabulary CODE Most useful source asserted identifier STR String SRL Source restriction level SUPPRESS Suppressible flag Values O E Y or N exemple C0001175 ENG PIL0001175 V0 50010340 Y 40019182 M0000245 D000163 MSH PM DO0 0163 Acquired Immunodeficiency Syndromes O N FIGURE A 1 Description des champs de la table MRCONSO L UMLS est constitu de plusieurs bases de donn es Les concepts et leur source sont stock es dans la base de donn es MRCONSO voir d tail figure A 1 Les attributs MRSAT MRDEF MRSTY MRHIST Les relations MRREL d tail voir figure A 2 MRCOC MRCXT MRHIER MRMAP MRSMAP Les donn es sur le M tathesaurus MRFILES MRCOLS MRDOC MR RANK MRSAB AMBIGLUI AMBIGSUI CHANGE MERGEDCUI CHANGE M
306. me MetaMap MM une m thode utilisant des trigrammes et une approche statistique appel e PubMed Related Cita tions gt PRC tout en utilisant le metathesaurus de l UMLS voir figure 2 26 MetaMap Aronson01 permet d analyser un texte et d en extraire des termes Publvled Related Citations FIGURE 2 26 Fonctionnement de l outil MTI de l UMLS MetaMap op re comme suit d coupe le document en groupes nominaux 7 apr s un tiquetage syntaxique gr ce l outil Phrasex Les mots vides sont ici ignor s Exemple le texte lt The local anesthetic bupivacaine is cardiotoxic gt est d coup en lt the local anesthetic bupivacaine gt lt is gt lt cardiotoxic gt g n re toutes les variantes ainsi que certaines variantes de variantes variantes orthographiques abr viations acronymes synonymes variantes d rivationnelles et flexionnelles pour chaque mot et chaque combinaison de mots d crits dans le SPECIALIST Lexicon de l UMLS Exemple lt anesthetics gt lt anaethetic gt anesthesia extrait les termes candidats du m tathesaurus donc ind pendamment de la terminologie source contenant au moins l une de ces variantes Exemple Bupivacaine local anaesthetic gt local anaetheti NOS gt 66 M thode des N grammes ou N 3 tous les mots sont r duits leurs 3 permiers caract res 67 Un groupe nominal est un ensemble de mots group s autour d un nom
307. me des termes peut tre d finie par des r gles n grammes Halleb97 lemmes racines etc mais les termes n appartiennent pas une liste finie Le vocabulaire utilis est donc libre Il peut s agir de l ensemble des mots d une langue L ensemble des termes qui peuvent tre utilis s n est pas connu a priori Ce type d indexation est utilis dans le moteur de recherche Google de mani re automatique Dans le cadre d une indexation contr l e les termes utilis s appartiennent un langage contr l et donc une liste ferm e Nous sommes ici dans le cadre d une indexation contr l e puisque tous les termes sont connus l avance Ils sont inclus dans les terminologies CIM10 CCAM SNOMED MeSH et TUV Le monde m dical est en perp tuelle volution avec la d couverte de nouvelles techniques et maladies contrairement au vocabulaire libre la liste des termes utilis s doit donc tre sou vent mise jour Des index libres peuvent tre extraits pour l enrichissement de vocabulaires contr l s ou pour en construire de nouveaux Charlet06 2 3 2 2 Un langage pour un objectif L indexation n est pas un but en soit ce n est qu une technique pr alable a la recherche d information et d autres types de traitement des informations Il est important de relier les diff rentes m thodes d indexation aux modes de recherche et applications vis s La m thode ainsi que le langage d indexation
308. me nerveux 1 1 1 1 Electromyogtaphie EMG AHOBOO1 EMG au lit AHOBO06 mactoEMG aiguille AHGE013 EMG nusc au repos 4 effort aiguille AHGE015 EMG fibre unique aiguille AHOBO024 EMG 3 Gmusce sans stimulod tect Aiguille AHOQB025 EMG 1 2musc stimulod tect Aiguille AHOBO026 EMG 3 Gmuse stimulod tect Aiguille AHOBO27 EMG 1 2musc sans stimulod tect Aiguille AHOB032 EMG aiguille 24 6musc VCN 24 4nf musc tsens sans conduction prox AHOBO33 EMG aiguille 7musc reposteffort HVCNM S5nf VCNS 5nf 1 1 1 2 Mesure des vitesses de conduction 1 1 2 Etude des pressions du syst me nerveux Chap 2 OEIL ET ANNEXES FIGURE 2 14 Extrait du chapitre 1 de la CCAM La CCAM est fond e sur le principe de l acte global chaque libell comprend implicitement l ensemble des gestes n cessaires la r alisation de l acte De plus les libell s sont non ambigus c est dire sans possibilit d interpr tations divergentes Elle est aussi bijective c est dire qu un libell correspond un code et un seul et r ciproquement voir figure 2 14 La CCAM version 6 comprend 7 389 codes chaque libell de dernier niveau de la CCAM correspond un code 7 caract res alphanum riques les 4 premiers sont signifiants topographie action voie d abord et ou technique les 3 derniers constituent un compteur s quentiel AA AA NNN Topographie Action Voie d abord et
309. medical infor matics the Foundational Model of Anatomy J Biomed Inform 2003 36 6 478 500 Roussey C Une m thode d indexation s mantique adapt e aux corpus multilingues Ph D thesis INSA de Lyon 2001 Ruch P Baud R Geissbtihler A Learning free text categori zation Proc AIME 2003 LNAI 2780 2003 119 204 Ruch P Query translation by Text Categorization Proceedings of the 20th international conference on Computational Linguis tics COLING 2004 Sager N Lyman M Nhhn N Tick L Medical language pro cessing Applications to patient data representation and au tomatic encoding Methods of Information in Medicine 1995 34 140 146 Salton G Experiments in multilingual information retrieval Information Processing Letters 1973 2 1 6 11 Salton G M J M Introduction to modern information retrie val 1983 Salton G Automatic text processing The transformation analysis and retrieval of information by computer Reading MA Addison Wesley 1989 Schank R Riesbeck C eds Inside Computer Understanding Hillsdale New Jersey Lawrence Erlbaurn Associates 1981 259 307 Schatz B Information Retrieval in Digital Libraries Bringing Search to the Net Science 1997 275 327 34 Seroussi B Bouaud J Dreau H Falcoff H Venot A Mo dalit s d interaction avec des syst mes d aide la d cision m dicale par alerte ou la demande pour d livrer des recom mandati
310. ment pour chaque type de ressource 5 5 pour les ressources d enseignement vs F MTI 2 1 9 3 pour les recommandations vs F MTI 2 9 et 3 5 pour les ressources patient vs F MTI 1 5 Performance Pr cision Rappel Type de termes Type de ressources a Mono d sufixation 6 Mono lemmatisation Descripteurs Tous 37 7 213 38 8 20 7 Recommandations 43 7 17 9 47 4 16 9 Enseignement 51 6 24 7 519 2438 Patient 42 4 27 5 43 7 25 9 FIGURE 4 15 Performances du F MTI mono terminologie compar l indexation manuelle sur les diff rents corpus Performance Pr cision 9 Rappel 90 Typedetermes Type de ressources c Multi d sufixation a Multi lemmatisation Descripteurs Tous 35 5 23 4 26 8 22 4 Recommandations 39 9 18 7 423 173 Enseignement 444 257 45 7 24 4 Patient 38 3 27 8 38 9 26 4 FIGURE 4 16 Performance de F MTI mono terminologie compar l indexation manuelle sur les diff rents corpus 4 2 4 4 4 R sultats concernant les diff rents types de termes En comparant les r sultats selon les diff rents types de termes mots cl s descrip teurs descripteurs majeurs nous observons que F MTI extraits de mani re plus efficace les descripteurs majeurs puis les descripteurs et finalement les mots cl s 134 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es Pour les descripteurs majeurs F MTI multi
311. mes et TUV 11 980 termes Pour ce faire les r sultats de nombreux travaux ant rieurs voir section suivante ont t int gr s dans le dictionnaire de termes de F MTI De plus nous avons labor une m thode permettant de recueillir automatiquement des variantes pour nos termes partir de corpus Nous avons test cette m thode sur les termes du TUV avec l id e sous jacente de l appliquer aux autres m thodes en cas d obtention de bons r sultats 3 8 2 2 Variantes provenant de pr c dents travaux Dans ce dictionnaire DELA nous avons tout d abord r pertori l ensemble des variantes de termes connues de la terminologie TUV Cela peut tre des variantes flexionnelles d rivationnelles ou des synonymes Exemple pour le terme de r f rence TUV lt affection des voies biliaires gt ayant comme synonyme lt affection de la v sicule biliaire gt nous avons int gr dans le dic tionnaire les entr es affection des voies biliaires affection des voies biliaires 176 CC PE scientifique TUV affection de la v sicule biliaire affection des voies biliaires 176 CC PE scientifique TUV Pour chaque entr e il est indiqu le code dans notre exemple lt 176 gt le type dans notre exemple CC concept complexe ou CE concept l mentaire l tiquette s mantique dans notre exemple lt PE scientifique gt et la terminologie source dans notre exemple le TUV Pour compl ter cette premi re liste nous avons explor
312. mes par article ainsi qu une pr cision de 29 et un rappel de 55 pour les mots cl s Aronson04 Pour les mots cl s majeurs 3 en moyenne les r sultats sont de 81 pour la pr cision et 11 pour le rappel Les r sultats sont diff rents selon les journaux index s De plus l interview des indexeurs avait montr que 37 des 68 Deux termes sont dit co occurents s ils sont souvent retrouv s ensemble dans un corpus Deux termes co occurents ont une forte probabilit d tre reli s par une relation s mantique 69 Cat gorie de journaux par sp cialit s m dicales assez proche des m tatermes de CISMeF 71 Chapitre 2 Etat de l art Section 2 5 Aide l indexation indexeurs trouvait que le recouvrement tait bon 53 partiel 10 insuffisant Une autre tude sur 500 articles Gay05 montre que pour l indexation du texte int gral le syst me produit une pr cision de 31 1 par rapport au titre et au r sum un rappel de 60 7 et une F measure de 49 1 consid rant seulement la m thode MetaMap le r sultat est 24 37 32 4 A N v ol avait compar MTT son outil MAIF Pour cette valuation un corpus de ressources parall le a t utilis le corpus parall le lt ENFR gt qui comporte 51 ressources CISMeF crites en 2 langues Les r sultats montrent une sup riorit du syst me MTI MAIF Pr cision 27 2 Rappel 36 1 F measure 31 et MTI 33 6 61 8 43 6 R cemment MTI
313. miner en premier lieu les expres sions les plus longues La liste d origine contenait 1 422 mots vides La nouvelle liste contient 1 267 entr es Lors de l appariement toutes les combinaisons de mots sont g n r es les dou blons sont donc inutiles et aussi limin s du sac de mots Dans le sac de mots pr sentant les mots signifiants d une phrase que l on d sire indexer certains mots sont non pertinents car jamais retrouv s dans aucun terme appartenant aux terminologies utilis es Nous avons ainsi r alis la liste compl te des mots normalis s st mes ou lemmes voir section d suffixation et lemmatisation pr sent s dans au moins un terme des diff rentes terminologies Les st mes sont au nombre de 61 274 pour l ensemble des cinq terminologies et sont typ s selon leurs terminologies d origine Lors de l laboration du sac de mots de la phrase les mots vides appartenant notre liste et les lemmes ou st mes n appartenant pas notre liste seront limin s afin d liminer les ambiguit s et pour ne pas surcharger le sac de mot pour une ex cution rapide du programme Normalisation de la phrase ou du terme d suffixation ou lemmatisation En informatique il est difficile pour un programme de savoir que deux mots l un issu d une phrase et l autre d un terme d une terminologie sont deux formes tex tuelles d un m me mot C est la raison pour laquelle une normalisation des mots est n
314. mme pour qu elles soient automatique ment prises en compte Enfin elle est capable de traiter des masses tr s importantes de documents en peu de temps l inverse de l indexation humaine L indexeur doit choisir un ou plusieurs termes parmi une liste de 7 000 110 000 termes pour les faire 56 Chapitre 2 Etat de l art Section 2 5 Aide l indexation correspondre la notion qu il a rep r dans le document Par exemple pour indexer une recommandation de bonne pratique un indexeur CISMeF met en moyenne 1 heure Les co ts humains sont tr s lev s d o l int r t de disposer d outils d indexa tion automatiques En revanche l indexation automatique est plus exhaustive les programmes in formatiques n ont encore qu une capacit de synth se limit e Ce type d indexa tion est aussi sujette aux erreurs dies aux ambiguit s de polys mie dans les textes Chartron89 Face des volumes importants de documents lectroniques traiter ce qui est le cas dans nos trois t ches d indexation l indexation automatique serait la m thode la plus appropri e encore faut il que celle ci atteigne une qualit d indexa tion quivalente 2 5 1 2 L indexation semi automatique L indexation semi automatique consiste indexer le document par un programme informatique qui propose au pr alable l indexeur une indexation charge lui de la compl ter de la modifier et enfin de la valider Ch
315. moment pertinent et quand l utilisateur en a besoin plac des niveaux strat giques au niveau de l interface l il aura besoin d informations et o il sera intuitif pour lui d aller en chercher et au moment o c est pertinent disponibilit de l information Plus on prend en compte d l ments du contexte plus l utilisateur gagnera du temps et moins il sera d courag dans sa recherche d information car le syst me ne lui proposera que les documents correspondant au plus pr s se demande Il est possible d imaginer la prise en compte d autres l ments du contexte le temps dont on dispose dans ce cas l utilisateur pr f rera les documents de type r sum l endroit o l on se trouve information valide dans le pays d origine etc Le type de document et le pays de diffusion du document sont d j r f renc s dans de nombreuses bases de connaissances telles que CISMeF pour rendre cet acc s contextuel disponible il manque ici un profil utilisateur plus d taill Il serait int ressant de mesurer la qualit et l apport pour les utilisateurs de ces diff rents acc s Nous pourrions tudier par exemple la qualit des documents propos s ou par un mode d interview la satisfaction de l utilisateur Gutnik07 Ce genre d outil pourrait tre am lior en donnant acc s directement l information et non pas un document contenant l information recherch e Les syst mes de question r ponse permet
316. n de qualit sur Internet est compliqu et demande aux m decins de travailler sur plusieurs supports leur logiciel de dossier patient et un navigateur Internet Nous proposons ici un acc s facilit aux connaissances en vitant les recherches fastidieuse sur Internet en proposant des ressources adapt es aux diff rents besoins et en vitant la multiplication des supports Cet acc s inspir de l InfoButton de Cimino Cimino97 est contextuel et se fait directement partir du dossier patient vers des bases de connaissances de qualit sur l Internet 1 la loi N 2003 303 du 4 mars 2002 relative aux droits des malades et la qualit du syst me de sant et le d cret N 2002 637 du 29 avril 2002 apportent une r forme importante au sein de l arsenal l gislatif 170 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 2 Acc s contextuel la connaissance partir du dossier patient 7 2 2 Acc s contextuel Notre projet a t inspir par le Knowledge coupling Cimino97 c est dire que des informations sp cifiques issues du dossier patient sont coupl s avec des connais sances m dicales sp cifiques pour donner une connaissance adapt e lt au bon moment la bonne personne gt Cette connaissance prend en compte un double contexte le contexte du patient diagnostics actes m dicaux et le type d utilisateur m decin tudiant patie
317. n est la r daction m me du compte rendu qui n est pas adapt e oour sa propre indexation Les documents sont r dig s en langage libre ils sont alors difficiles appr hender pour l ordinateur et par des humains ayant peu de connaissances du domaine Une r daction assist e de documents permettrait la r daction de documents structur s et adapt s Les tournures pourrait tre impos es afin de faciliter l indexation et faciliter la lecture pour les autres utilisateurs voir chapitre 6 pour faciliter la lecture par les patients Par exemple contraindre l utilisateur ne pas utiliser d abr viations ou lui proposer d s qu une abr viation est d tect e de la remplacer par le terme exacte ou s il y a ambigu t de pr ciser le terme correspondant ce qui permettra d liminer la source les ambiguit s Cet diteur de texte contr l devra r pondre en temps r el il pourra utiliser l outil F MTT certaines am liorations et fonctionnalit s seront envisager pour rendre cet diteur op rationnel 5 4 Indexation automatique de ressources Web Vu les performances obtenues par F MTT pour l indexation automatique des sites Web il devrait remplacer l algorithme du sac de mots qui fonctionnait jusqu ce jour pour l indexation automatique en MeSH des titres de ressources dans CISMeF voir section 3 8 1 Il pourrait aussi remplacer ce m me algorithme pour le traitement des requ tes tap es par les utilisateurs dans
318. n niveau de pr cision suppl mentaire Par exemple le terme pr sent par le code A03 lt shigellose gt est plus g n ral que le terme lt Shigellose Shigella dysenteriae gt associ au code A03 0 Nous avons consid r le nombre de digit en commun dans notre calcul Par exemple si F MTI extrait le code A03 et que le m decin code A03 0 alors nous consid rons que nous avons une correspondance de 3 digits I y a jusqu a 5 digits dans un code CIM10 le 5e digit tant g n ralement d di aux codes extensions de la CIM10 Dans un premier temps nous nous sommes int ress s a tous les codes CIM10 extraits Puis nous avons voulu nous pencher sur les performances du F MTI en mati re d extraction de diagnostics et de sympt mes Nous avons utilis pour cela les types s mantiques de UMLS voir section 2 3 2 3 3 Chaque code CIM10 dans l UMLS est associ un type s mantique dont lt diagnosis gt pour diagnostic et lt symptom gt pour sympt me Au moment de l valuation de l extraction de diag nostics ou de sympt mes nous n avons pris en compte que les codes diagnostics 5 025 codes concern s ou sympt mes 221 codes concern s 120 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es Dans chaque secteur les m decins codent g n ralement leurs comptes rendus a l aide d une liste restreinte de codes CIM10 Ces listes contiennent g n ralement les cod
319. nalyseur syntaxique SYNTEX Bourigault00 SN D m SN SP Analyse SN SAdj Prep SN syntaxique ee a Det SN sg aay N ad ge B Analyse SN SAdj Acj morphologique lemmatisation N An et tiquetage stenose severe de le tronc commun gauche Expression st nose s v re du tronc commun gauche FIGURE 2 21 Exemple d analyse morphologique suivie d une analyse syntaxique Analyse s mantique L analyse s mantique part de l analyse syntaxique pour d duire le sens de la phrase Le niveau s mantique est plus complexe formaliser que les niveaux de traitements pr c dents Les analyseurs s mantiques op rationnelles sont peu nombreux et concernent des applications tr s limit es Nous sommes encore loin de pouvoir couvrir la totalit de la langue Outre les analyseurs s mantiques l utilisation d une terminologie peut permettre d appr hender le sens d une phrase par les termes qu elle contient L outil MENELAS Zweigenbaum94 contient un analyseur s mantique On peut citer ici une autre tude celle de Cavazza Cavazza92 Analyse pragmatique L analyse s mantique de phrases de mani re isol e ne permet pas d appr hender la signification compl te d un texte telle que l humain l appr hende lors d un processus de compr hension Une analyse suppl mentaire l analyse pragmatique permet de retrouver des informations implicites li es au contexte d utilisation des mots Ces syst mes poss dent une
320. ndexation ulc re gastrique Ell2048 TUV gastrique ulc re ulc re gastrique PE1192 TUV gastrique ulc re ulc re gastrique D013276 MSH gastrique ulc re ulc re gastrique D5 32100 SNMI gastrique ulc re FIGURE 3 12 Exemple d indexation par l algorithme du sac de mots d une phrase extraite d un compte rendu d hospitalisation 3 8 1 4 Impl mentation La m thode du sac de mots a t impl ment e en Perl Wall01 Nous avons choisi ce langage informatique car il est parfaitement adapt pour toutes les t ches li es la manipulation de cha nes de caract res pour la normalisation et le d coupage en mots cela est tr s utile Il permet de stocker et r cup rer les donn es dans une table de hachage de mani re extr mement rapide Il existe de nombreux modules Perl site CPAN c est dire de nombreuses fonctions d j impl ment es Enfin les outils permettant l impl mentation et l ex cution de programme Perl sont gratuits et disponibles sur Internet 3 8 1 5 Algorithmique L acc s un terme dans une table de hachage a une complexit de O 1 en moyenne quel que soit le nombre de termes dans la table ce qui est tr s rapide La complexit de l algorithme du sac de mots tient surtout la complexit de la g n ration de l ensemble des combinaisons pour la liste des mots signifiants de la phrase complexit factorielle en O n Dans notre algorithme pour une phrase constitu e de 25 mots si
321. nes de caract res Elle est gale au nombre minimal de caract res qu il faut supprimer ins rer ou remplacer pour passer d une cha ne l autre Levenshtein66a d autres distances existent nous citons celle ci qui est la plus connue Dans le projet Vodel une tude a port sur la comparaison de termes en tudiant leurs d finitiosn et non plus seulement leurs lib ll s Diosan08 La m thode des N grammes permet d identifier des expressions ayant une forte probabilit d tre synonymes Bell90 Le texte indexer est d coup formant tous les groupes de mots contenant 1 n mots cons cutifs sans ponctuation possible puis tous les mots sont r duits leurs N premiers caract res Pour chaque groupe constitu un score de correspondance avec les termes de la terminologie est calcul L appariement peut s appuyer sur des l ments syntaxiques s mantiques ou prag matiques afin de pr ciser les conditions d appariement 55 Ce sont les lettres ou syllabes qui s ajoutent la fin des mots pour en d terminer la signifi cation 66 Chapitre 2 Etat de l art Section 2 5 Aide l indexation Quelques syst mes utilisent une approche TAL pour l extraction de termes NL PAD Zweigenbaum92 RIME Berrut90 et LSP MLP Sager95 2 5 3 2 Indexeurs automatiques existants La majorit des outils d aide l indexation en place aujourd hui dans les h pitaux ou les organismes prat
322. nn es pour chaque ressource sont pr sent es il existe aussi dans CIS MeF une notice longue avec toutes les caract ristiques disponibles 14 L indexeur pratique la decription et l indexation de ressources 15 La terminologie CISMeF contient l ensemble des mots cl s pouvant tre assign s a une res source Chapitre 1 Contexte Section 1 3 Contexte scientifique d indexation est op r par l indexeur l tape 2 lors de la s lection des res sources Le premier niveau est une indexation purement manuelle faite par des humains la main pour les ressources de priorit haute comme les re commandations qui ont besoin d tre index es rapidement pour tre diffus es rapidement aupr s des m decins L indexation de niveau 2 est une indexa tion supervis e qui consiste en une indexation automatique effectu e par un programme informatique sur le titre de la ressource Les indexeurs sont en suite charg s de valider et modifier la main si n cessaire cette indexation Elle est destin e aux ressources de qualit mais moins urgentes que celles du premier niveau Enfin indexation de niveau 3 est une indexation pure ment automatique sans validation humaine a posteriori sur le titre pour les ressources de priorit faible dont la qualit et l utilit ne n cessite pas une indexation pr cise ou dont le th me est d j abondamment trait dans CISMeF Le catalogue contient 18 807 ressources index es manuellem
323. ns afin de proposer des acc s contextuels prenant en compte la demande le profil et la langue de l utilisateur ainsi que l existence du contenu recherch Nous pr sentons trois types d acc s contextuel liant diff rents types de donn es partir du dossier patient vers les banques d information en ligne multilingues au sein du dossier patient partir d une banque d information en ligne vers d autres banques d informa tion en ligne en fran ais ou en d autres langues 169 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 2 Acc s contextuel la connaissance a partir du dossier patient 7 2 Acc s contextuel la connaissance partir du dossier patient 7 2 1 Acc s aux connaissances partir du dossier patient Autrefois seuls les m decins et les tudiants en m decine avaient le droit de consulter les dossiers de leurs patients Ce n est plus le cas aujourd hui puisque la loi permet aux patients d acc der leurs dossiers m dicaux et donc aux comptes ren dus ainsi qu au codage de leurs donn es Cet acc s est d di la personne concern e ou son repr sentant l gal un interm diaire ou les ayants droit apr s un d c s Le patient peut tre seul ou accompagn dans sa consultation Une premi re phase d experimentation du DMP Dossier M dical Personnel en janvier 2007 a montr que les patients taient int r
324. ns la hi rarchie et une d finition Pour chaque relation il existe un identifiant unique un nombre indiquant sa position dans la hi rarchie une d finition et l ensemble des types s mantiques qui peuvent tre reli s par cette relation 19 Il est important dans cette th se de souligner que les terminologies fran aises sont tr s peu repr sent es dans l UMLS 33 Chapitre 2 tat de l art Section 2 3 D finition de l indexation et du codage Le SPECIALIST Lexicon contient les informations syntaxiques morpholo giques et orthographiques n cessaires au traitement automatique de la langue anglaise I int gre pres de 200 000 libell s lexicaux Chaque entr e poss de une forme de base le lemme une cat gorie syntaxique un identifiant unique et ventuellement des variantes orthographiques Une version fran aise du SPECIALIST Lexicon a t r alis e en partie par l quipe CISMeF et Vidal dans le projet UMLF 2 3 3 L indexation en pratique L indexation d un document comme on l entend ici consiste rep rer dans celui ci certains mots ou expressions particuli rement significatifs faisant r f rence un terme d une terminologie dans un contexte donn et cr er un lien entre ces termes et le texte original Il existe un consensus en mati re d indexation Anderson01 qui consiste en quatre tapes 1 analyse du texte 2 traduction dans le vocabulaire contr l 3 relectu
325. ns un ordre ind fini Normalisation de la phrase ou du terme d coupage en mots ou tokenisation Il faut d abord d finir ce qu est un lt mot gt pour pouvoir les identifier automati quement Il est possible d aborder la question de la d finition du mot de deux fa ons soit par la d finition de crit res de segmentation de la phrase en mots soit par la d finition de la structure interne du mot Molino85 Ici nous nous int ressons la segmentation Dans le langage courant un mot est une suite de caract res graphiques formant une unit s mantique et pouvant tre distingu par un s parateur un es pace Cette d finition est tr s sommaire en fait beaucoup d l ments sont prendre en compte Voici quelques r gles que nous avons adopt es celles ci constituent d ja un changement dans l algorithme d origine Un mot peut tre compos accentu il peut tre un sigle ou un nom propre 92 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point Entr e une phrase avec son contexte rubrique et paragraphe Liste des mots vides txt Liste des expressions videstxt Listes des mots normalis s non _pertments txt Table les termes avec leurs sac de mots termmologies utiliser termmologies en sortie mode normalisation mot Table les relations inter termmologies Sortie Liste de termes d mdexation D but Ajout du contexte Si rubrique
326. nsi que les mots cl s MeSH les m tadonn es du Dublin Core Dekkers03 Les types de res source ont t s lectionn s manuellement partir de la liste des types de ressource CISMeF Les mots cl s MeSH descripteurs et paires descripteurs qualificatifs ont t s lectionn s manuellement partir de la liste des descripteurs CISMeF incluant le MeSH et des qualificatifs Pour rappel la terminologie CISMeF contient 24 357 descripteurs et 83 qualificatifs dans sa version 2007 mais le corpus qui a t constitu sur 13 ans a t index avec les versions du MeSH en application au moment de l int gration de chaque ressource A chaque mot cl l indexeur a appos un poids lt majeur gt en y accolant une ast risque ou lt mineur gt sans ast risque d pendant de sa capacit d crire le contenu du document Un mot cl tr s repr sentatif du contenu de la ressource est consid r comme majeur mineur sinon 4 2 4 3 Mesures d valuation Gr ce au calcul de la pr cision et du rappel nous avons d termin la qualit de l indexation MeSH effectu e automatiquement par F MTI par rapport l indexation MeSH faite manuellement qui est consid r e comme la r f rence F MTI a t appliqu successivement avec diff rents param tres 1 F MTI mono terminologie incluant la d suffixation 2 F MTI mono terminologie incluant la lemmatisation 3 F MTI multi terminologies incluant la d suffixation 4 F MTT multi termin
327. nt Les connaissances sont recherch es sur l Internet sur des sites sp cialis s dans la recherche en sant 50 sites Web provenant des gouvernements de pays francophones d organisation de sant nationale des facult s de m decine et d odontologie ont t d finis par l quipe CISMeF comme tant de qualit Les ressources sont filtr es selon le profil de l utilisateur recommandations pour les professionnels de sant ressources p dagogiques pour les tudiants et documents sp cifiques pour les patients L utilisa teur peut galement choisir le type de connaissances qu il recherche Par exemple le m decin ayant un r le fondamental d infom diation il voudra rechercher des infor mations sur un diagnostic sp cifique pour un patient qui lui en aurait fait la demande Nous avons d velopp un outil permettant d acc der des connaissances m dicales contextualis es 3 dimensions le profil de l utilisateur le diagnostic ou l acte l exis tence de ressources et potentiellement applicable n importe quel logiciel de dossier patient 7 2 3 D veloppement L outil mis au point s inspire du bouton d information InfoButton imagin par Cimino en 1997 Cimino97 Ce bouton int gr dans les syst mes cliniques permet tait aux utilisateurs en un seul clic d interroger les ressources d informations en ligne en utilisant les donn es du patient Pour acc der aux ressources appropri es l utilisa
328. nt un descripteur d crit dans la base alors il est index avec le terme correspondant Les outil d indexation automatique utilisant cette approche sont CIREA Nakache07 avec l algorithme CLO3 et le syst me SMART Salton89 utilisant le mod le vectoriel 2 5 3 1 2 Approches TALN Traitement Automatique du Language Na turel La deuxi me approche consiste analyser les associations secondaires r alis es par l tre humain entre deux notions ici une expression en langue naturelle et un terme d une terminologie Cette approche est associ e aux m thodes de TALN pour l analyse du langage naturel Le TAL s appuie sur plusieurs disciplines la linguistique l informatique les math matiques alg bre logique statistiques et probabilit s l Intelligence Arti ficielle et les sciences cognitives Cori02 Tout syst me de compr hension des langues naturelles doit par d compositions et analyses successives transformer la demande initiale en une formule cens e en exprimer le sens La grande majorit des syst mes de traitement linguistique d composent les traitements possibles d un texte selon quatre niveaux de la compr hension l mentaire la compr hension globale l analyse morpho lexicale se base sur le traitement de la structure des mots l analyse syntaxique se base sur le traitement de la structure des phrases l analyse s mantique se base sur le traitement du sens l analyse pragm
329. ntaire et un concept Lexical Alternative name le libell de la variante Commentaires Le libell du terme l mentaire est consid r comme une variante possible Un terme l mentaire peut tre reli 1 n variantes Classe des Relation concept 191 Chapitre A Annexes Section A 2 Mod les unitaires pour la base de donn es multi terminologique But Cette classe renseigne tous les liens s mantiques pouvant relier deux termes l mentaires Les attributs Les deux termes l mentaires d sign s par les codes concept _id1l et concept_id2 sont li s dans une relation s mantique De plus l attribut relation_concept_type renseigne sur le type de la relation s mantique exemple lt sympt me gt et lt p re fils gt Commentaires Il peut exister pour un m me terme plusieurs relations s mantiques vers d autres termes TUV Classe des Relation semanticLabel But Cette classe renseigne tous les liens s mantiques pouvant relier deux tiquettes s mantiques Les attributs Les deux attributs relation_semanticLabell et relation_semanticLabel2 renseignent les deux tiquettes s mantiques impliqu es dans la relation rela tion_ concept type A 2 3 Mod le de la CIM10 Ce mod le a t inspir par la repr sentation formelle de la classification CIM10 en entit s et relations de l OFS Office F d ral de la statistique OFS06 Ce mod le comporte 9 classes vo
330. ntifi es Les syst mes produisant une indexation directe pour plusieurs terminologies Exemple HONMeSHMapper et MEDLEE Friedman04 fonctionnent sur PUMLS Les syst mes produisant une indexation directe et indirecte pour plusieurs ter minologies Exemple MTI fonctionnent sur l UMLS et permet d indexer en MeSH et CIM9 CM en utilisant tout le r seau de l UMLS Il existe des outils industriels comme l outil Snocode et Insight Discoverer Extractor l outil de la soci t T mis qui permettent l extraction de termes MeSH fran ais et anglais L outil de la soci t Microsoft permet une extraction de termes SNOMED 56 partir d une requ te de l utilisateur l outil propose les termes de la terminologie les plus adapt s 57 http terminologiecismef chu rouen fr 58 Medical Language Extraction and Encoding System 59 Voir http www temis com J ai pu participer l laboration de leur outil d indexation en int grant un module pour l indexation de la classification Internationale du Handicap CIH 60 Outil pr sent la r union Serveurs de terminologies m dicales gt le 24 septembre 2007 au GDR STIC Sant Th me C 67 Chapitre 2 tat de l art Section 2 5 Aide l indexation 3 5 Enfin l outil de HealthLanguage f permet une indexation en SNOMED CT Nous nous sommes int r ss s au fonctionnement des principaux outils et no tament ceux developp s pour le fran ais pour nos termin
331. o litique d indexation des ressources en MeSH au sein de l quipe CISMeF le codage m dico conomique pour les dossiers patients et les terminologies associ es ainsi que Vindexation des RCP l aide des terminologies Vidal Nous pr sentons aussi les tra vaux existant en mati re d aide a l indexation automatique En fin de chapitre les axes d am liorations possibles ainsi que notre contribution dans le domaine sont ex plicit s Le troisi me chapitre pr sente le fonctionnement de l outil F MTI French Multi Terminology Indexer Un outil d indexation multi terminologique multi document et multi tache g n rique en mesure de reproduire automatiquement les t ches d indexation d crites r alis es habituellement la main Nous pr sentons aussi les diff rentes m thodes labor es Dans le chapitre 4 nous pr sentons les diff rentes valuations men es Ces valutions portent sur les performances de F MTI lt en situation gt L indexation pro duite l aide de la CIM10 de la CCAM et de la SNOMED pour les comptes rendus d hospitalisation y est valu e Nous pr sentons aussi les valuations concernant Vindexation des ressources Web l aide du MeSH et des RCP l aide du TUV F MTI a aussi t compar a d autres outils d indexation automatique Un cinqui me chapitre permet d aborder les diff rentes mises en application en visag es Le sixieme chapitre r sume et permet de discute
332. odage des maladies et des actes m dicaux F MTT pourrait tre int gr avec une interface sp cifique ou de mani re discr te dans l diteur de texte par exemple dans Microsoft Word qui est utilis par les m decins et secr taires au CHU de Rouen pour r diger leurs comptes rendus hos pitaliers Microsoft Word permet de cr r des macros programmes informatiques d appeler des programmes et de cr er de nouveaux boutons sur la barre d outil F MTI pourra alors tre utilis apr s s lection d une portion de texte jug e pertinente ou importante ou l ensemble du document pour lequel il pr sentera l indexation possible en fin de document voir les tapes 1 2 et 3 de la figure 5 2 Ce mode de fonctionnement est similaire celui de l outil SnoCode Comme nous l avons constater l outil F MTT r alise une indexation descriptive il pourrait tre coupl des outils m dico conomiques en post traitement pour r aliser un codage m dico conomique pour le PMSI Il existe des outils d aide l indexation m dico conomique permettant de naviguer dans les terminologies et permettant de simuler la fonction groupage afin de d terminer le co t d un s jour exemple l outil WebFG de la soci t WEB100T Aucun de ces outils ne permet d appliquer les re 144 Chapitre 5 Applications du F MTI Section 5 3 Indexation automatique de dossiers patients ay ABLIN LOUISE 1921 03 18 2007 09 10 5522
333. odes F MTI Mesure de Hooper 31 3 FIGURE 4 13 Evaluation des recouvrements des codes SNOMED extraits par les deux outils Transcodages diff rents Transcodage semblables Pr cision Rappel Pr cision Rappel F MTI 4 4 30 7 4 4 30 7 FIGURE 4 14 Comparaison des deux outils avec et sans le m me transcodage CIM10 manuelle ce qui donne une pr cision tr s faible 4 4 SnoCode produit une meilleure pr cision 15 et 6 1 avec le m me transcodage Les scores se rapprochent beaucoup lorsque l on utilise le m me transcodage F MTI produit un meilleur rappel 30 7 vs 22 2 et une plus faible pr cision 4 4 vs 6 1 par rapport SnoCode 4 2 3 5 Discussion Comparaison entre SnoCode et F MTI II n est pas surprenant que le nombre de codes g n r s par les deux syst mes varie grandement moyenne de 54 9 codes SNOMED pour SnoCode vs 100 3 pour F MTI moyenne de 17 1 codes CIM10 pour SnoCode vs 26 5 pour F MTI Ces variations sont dues au fait que SnoCode se base seulement sur les codes SNOMED alors que F MTI se fonde sur 4 autres terminologies pour g n rer des codes SNOMED Dans la figure 4 13 la mesure de Hooper montre que les deux outils produisent des indexations aussi diff rentes que peuvent l tre deux indexations humaines 31 37 A titre de comparaison a la NLM les indexeurs manuels g nerent une mesure de Hooper de 39 pour Vindexation MeSH Funk83b D apr s les figures 4 12 et 4 14 nous pouvons
334. ogies d indexation choisies Par exemple si l utilisateur choisit d indexer son do cument l aide de la terminologie CIM10 seuls les transcodages MeSH gt CIM10 et SNOMED gt CIM10 seront appliqu s Seuls les termes CIM10 seront propos s luti lisateur en fin de parcours L utilisation des transcodages permet de compl ter une indexation existante Pour l indexation de la phrase lt Ulc re gastrique op r il y a 20 ans gt voir figure 3 12 le transcodage permet de compl ter l indexation par les termes K25 9 D5 32422 D013270 et C16 9 voir figure 3 20 ulc re gastrique E12048 TUV gastrique ulc re ulcere gastrique PE1192 TUV gastrique ulc re ulcere gastrique D013276 MSH gastrigue ulc re uicere gastrique D5 32100 SNMI gastrique ulcere A SS RT EN ae Je ESIOMAC Hor FIGURE 3 20 Compl ment d indexation apport par le transcodage 3 12 Post traitement Le post traitement consiste g n rer indexation finale pour toutes les phrases d un document ainsi que l indexation finale pour le document Il comprend plusieurs tapes limination des doublons m me termes ou un terme et son synonyme de la m me terminologie application des r gles d indexation les r gles g n rales 111 Chapitre 3 Conception de l extracteur multi terminologique Section 3 13 Param tres et l ments en sortie Nous privil gions une indexation au plus pr cis Les termes
335. ogies utilis es avec notament les projets de recherche VUMeF et UMLF avec l quipe CISMeF et le laboratoire LERTIM voir section 1 3 1 pour la recherche d information et l indexation des RCP Dans le m me objectif un travail a t r alis afin de cr er une nouvelle ter minologie le TUV voir section 2 4 2 3 partir des quatre terminologies d origine Thesaurus indications contre indications pr cautions d emploi et effets secondaires et permettant de structurer plus finement les termes afin d enrichir les connaissances de la base et de les harmoniser en vue d am liorer les fonctionnalit s de recherche et d alertes dans les produits Vidal La gestion en est aussi facilit e puisqu il ne restera qu une seule terminologie g rer 1 3 2 5 Les besoins Une fois la terminologie TUV termin e il sera n cessaire de la maintenir et de la faire voluer 14 Chapitre 1 Contexte Section 1 3 Contexte scientifique Par ailleurs d autres terminologies destin es l impl mentation de nouvelles alertes voient le jour ce qui complique d autant l indexation Cette indexation tant li e aux alertes il est indispensable de ne rien oublier et de ne pas faire d erreur En outre tous les indexeurs n indexant pas de la m me fa on il est aussi important d arriver une bonne harmonisation de l indexation produite Il devient indispen sable d aider les indexeurs dans l indexation des RCP Vidal s
336. ois algorithmes pour les mots du TUV par rapport au dictionnaire de r f rence Les r sultats pr sent s la figure 4 5 montrent que l algorithme de Carry produit le meilleur rappel avec 76 3 v s 74 7 pour l algorithme de Lucene et 69 4 pour Valgorithme de CISMeF En revanche c est l algorithme de Lucene qui produit la meilleure pr cision avec 81 4 v s 70 9 pour l algorithme de CISMeF et 59 3 pour l algorithme de Carry et la meilleure F measure avec 77 9 v s 66 7 pour l algorithme de Carry et 70 4 pour l algorithme de CISMeF 4 Moyenne pond r e de la pr cision et du rappel 118 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es 4 2 1 4 Discussion Bien que le principal avantage de ces outils r side dans leur simplicit l ab sence de contraintes linguistiques fortes engendre n anmoins des erreurs de sur racinisation exemple le st me lt nat gt apparie la fois lt nature gt et lt nation gt ou de sous racinisation exemple le steme lt adaptat gt emp che l appariement des formes lt adapter gt et lt adaptation gt Cette remarque est confirm e par nos r sultats puisque Valgorithme Lucene qui prend en compte le plus de contraintes sur la forme du mot obtient les meilleurs r sultats Cette valuation s est faite dans le cadre de la terminologie TUV nous tendons cette hypoth se aux autres terminologies puisque 80 des lemm
337. olled Terminology Algorithms Evaluation studies Table des mati res Remerciements ii R sum iii Abstract iv Introduction g n rale ix 0 1 Probl matique 44 Lise es Rene aus eae ere ix 0 2 En pratique s s erada Be ARS ee Hl ee Bee ix 03 Objects si eS ode Ses a beth oes i St ee ee A a eNA xi 0 4 Organisation du m moire eu da mu ae ma waa e de xi I Contexte et tat de l art 1 1 Contexte 2 1 1 Introduction 4 4 44 4 Le a ee OE hasta beat eee 2 1 2 Contexte administratif 4 4 4 0462568452 ee RE REED 2 1 3 Contexte scientifique 2 14 ea ee ee RSE eee Hunt s Em 3 1 3 1 Travaux de l quipe CISMeF 3 1 3 2 Produits et centres d int r t de la soci t Vidal 11 1 3 3 Activit s de recherche du LERTIM 15 1 4 CONCOMBRE ee ee Re eS ee 18 2 Etat de l art 19 21 Introduction s ss SSL ETS Be ASE Meee eae cee ee e 19 2 2 Fondements de la recherche d information et des bases de connaissances 19 2 2 1 Recherche d information lectronique 20 2 2 2 Particularit s de la recherche d information sur Internet 22 2 2 3 Bases de connaissance et syst mes d aide la d cision 24 2 2 4 Besoins usages et acc s 25 2 3 D finition de l indexation et du codage 26 2 3 1 Principe de Vind xation 4 2 242 ee es aeudea x 26 2 3 2 Langage d indexation 2 44 ni 44 b
338. olo gies trait es par exemple et leur mode de fonctionnement exemple mode de prise en charge afin de les d livrer l tat et les services d assurance maladie articles L6113 7 et L6113 8 du code de la sant publique Ces donn es sont n cessaires l laboration des cartes sanitaires pour les tudes pid miologiques c est dans cet objectif que la CIM a t initialement labor e la d termination des ressources n cessaires l tablissement afin de procu rer aux tablissements de sant les financements ad quats dans le cadre de la tarification l activit T2A l valuation de la qualit des soins ainsi qu au contr le de leur activit et de leurs facturations Des donn es fausses peuvent les rendre inexploitables et entrainer des probl mes dans le financement de l h pital Apr s chaque s jour hospitalier en soins de courte dur e m decine chirurgie obst trique et odontologie MCO un bref compte rendu de l hospitalisation du patient doit tre produit il est compos d un compte rendu de s jour dactylographi voir figure 2 8 pour un exemple de compte rendu de s jour Celui ci permet de communiquer de fa on pr cise et concise l tat du patient afin que chaque m decin consultant le dossier puisse avoir une vue synth tique de l volution de la maladie au travers des tapes importantes du traitement du patient Ils peuvent tre plus ou moins struc
339. ologies afin de d terminer notre propre approche 2 5 3 2 1 MAIF MeSH Automatic Indexing for French Le syst me MAIF MeSH Automatic Indexing for French a t d velopp par A N v ol lors de sa th se au sein de l quipe CISMeF N v ol05a Ce syst me permet Texte Int gral Titre w W mots cl s MeSH qualificatifs paires H Notices CISMeF 4 4 i i 1 i 1 i i i i i mots cl s paires mots cl s paires Liste ordonn e de mots cl s et paires MeSH FIGURE 2 24 Fonctionnement de l outil MAIF partir de l URL d une ressource en fran ais de produire une indexation l aide de mots cl s MeSH fran ais mots cl s ou paires mot cl qualificatif Le texte est trait avec une approche TAL et le titre de la ressource avec une approche k PPV voir figure 2 24 L approche TAL consiste en l application par le logiciel INTEX d un diction naire et de transducteurs patrons d extraction MeSH Ce dictionnaire contient les diverses formes que peuvent prendre en langue naturelle les termes MeSH Les transducteurs permettent de rendre compte de la grande variabilit de certains mots cl s exemple lt adulte d ge moyen gt Ce dictionnaire a t cr partir de res sources disponibles sur Internet et dans le milieu de la recherche Pour la langue g n rale ces donn es sont issus des dictionnaires DELA existants et de Lexique23 Pour le language m dicale e
340. ologies incluant la lemmatisation Nous avons par ailleurs calcul les performances en consid rant s par ment trois cat gories de termes Les mots cl s MC descripteurs MeSH ou paire descripteur qualificatif L as sociation descripteur qualificatif est prise en compte exemple lt cancer du sein gt et lt cancer du sein pr vention et contr le gt sont consid r s comme non quivalents Les descripteurs D les descripteurs MeSH sans les qualificatifs qui peuvent leurs tre associ s exemple lt cancer du sein gt et cancer du sein pr vention et contr le gt sont consid r s comme quivalents Pour les descripteurs nous 132 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es avons choisi d valuer en plus l indexation automatique sur trois types de res source diff rents reli s aux trois cibles majeures du catalogue CISMeF les professionnels de sant les tudiants et les patients les types de ressource associ s tant respectivement lt recommandations gt mat riel et enseigne ment gt et lt patient gt ainsi que leurs fils Les descripteurs majeurs D seuls les descripteurs sans les qualificatifs qui peuvent leurs tre associ s assign s d une ast risque sont pris en compte exemple lt Pharyngite gt Nous avons aussi r alis une deuxi me valuation permettant de mesurer cette fois la qualit de l inde
341. ologique Section 4 2 Evaluations r alis es Step 1 Standard suffix removal Search for the longest among the following suffixes and perform the action indicated ance iqUe isme able iste eux ances iqUes ismes ables istes delete if in R2 atrice ateur ation atrices ateurs ations delete if in R2 if preceded by ic delete if in R2 else replace by igU FIGURE 4 3 Quelques regles de d suffixation pour le FrenchStemmer de Lucene Le but ici est de d terminer la meilleure m thode de d suffixation pour le domaine m dical La meilleure m thode de d suffixation est celle qui produit le meilleur radi cal capable d tre associ a tous les mots d une m me famille Par exemple lt asthme gt lt asthmes gt lt asthmatique gt et lt asthmatiques gt sont quatre mots composants une m me famille Ils doivent donc tous tre associ au m me radical un radical possible tant lt asthm gt Pour l indexation automatique la d suffixation doit pouvoir apparier les mots courants ou m dicaux d une phrase provenant d un RCP ou d un compte rendu m dical ou d un site Web m dical avec des mots pour la plupart m dicaux apparte nant des terminologies m dicales Nous avons essay de recr er ce ph nom ne dans notre valuation 4 2 1 2 l ments d valuation Nous avons pris comme l ments d valuation la liste de l ensemble des mots si gnifiants sans les mots vides composant le TUV Le choix du
342. omatic concept extraction from spoken medical reports Int J Med Inform 2003 70 2 3 255 63 Hathout N Namer F Dal G An experimental constructional database the MorTAL project Many morphologies Cambridge Mass Cascadilla Press 2002 178 209 Hathout N Namer F Dal G An experimental constructional database The Mortal project Cascadilla Press 2002 178 209 213 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Hoquet05 Humphrey06 Jacquemart03 Jacquemart05 Jacquemin97 Joachims98 Jollis93 Joubert02 Joubert03 Joubert07aj Joubert07b Keselman07 Kim0 Hoquet T al Linn et la classification des plantes collLes fondements de la botanique Paris Vuibert 2005 Humphrey S Rogers W K K D D F Rindflesch T Word Sense Disambiguation by Selecting the Best Semantic Type Ba sed on Journal Descriptor Indexing Preliminary Experiment Journal of the american society or information science and technology 2006 57 1 96 113 Jacquemart P Zweigenbaum P Towards a medical question answering system a feasibility study Stud Health Technol In form 2003 95 463 468 Jacquemart P Acc s l information textuelle m dicale de la recherche d information aux syst mes de question r ponse Ph D thesis Universit de Paris 5 2005 Jacquemin C Guessing morphology from terms and corpora Actes 20th ACM SIGIR 1997 156 67 Joachims
343. omatique un usage com bin de ces m thodes Nous avons choisi de nous int resser plus particuli rement aux m thodes TAL et non au m thodes statistiques Nous ne nous int ressons pas non plus aux m thodes de classification de termes par ordre d importance ou aux m thode statistiques telles que k PPV qui permettent d utiliser l indexation de do cuments proches sachant qu A N v ol a travaill sur ces m thodes statistiques et qu elles pourront tre in fine int gr es dans notre outil sans compter les travaux de T Merabti sur les related documents Merabti08b Nous apporterons notre contribution dans l enrichissement de terminologies des lexiques et des grammaires Nous d velopperons de nouvelles m thodes d apparie ment ainsi qu une m thode de cr ation automatique de variantes de termes partir de corpus De plus l tat de l art montre que peu d outils prennent en compte les aspects pragmatiques Medckare prend en compte la n gation MTI prend en compte les domaines de sp cialit Nous essaierons d apporter notre contribution dans ce do maine Nous proposons de construire un outil d indexation et d aide l indexation auto matique g n raliste Nous contribuerons aussi au d veloppement de nouveaux acces contextuels a l information m dicale 74 Chapitre 2 Etat de l art Section 2 6 Conclusion 2 6 Conclusion L analyse du contexte et de l tat de l art nous ont permis
344. on de Sant Fran ais voir section 5 6 d but en 2007 va permettre le d veloppement d un Serveur Multi Terminologique en Sant SMTS avec S Sakji pendant de notre outil F MTI pour l extraction au tomatique Toutes les terminologies de sant incluses dans le SMTS seront int gr es dans l outil F MTI Les terminologies suivantes sont en cours d int gration DRC CISP2 En 2009 sont programm es apr s leurs int gration pr alable dans le SMTS l ajout des terminologies suivantes au sein de F MTT LOINC Med DRA et Who Art Le projet PSIP Patient Savety Through intelligent Procedures in medication voir section 5 7 d but en 2008 a pour objectif optimisation de la pres cription informatis e D s a pr sent dans le cadre du projet europ en PSIP les noms commerciaux et internationaux des m dicaments sont int gr s par S Sakji au F MTI version 2 L outil F MTI version 2 sera galement r utilis et adapt une nouvelle probl matique les infections nosocomiales dans le projet ALADIN DTH As sistant de Lutte Automatis et de D tection des Infections Nosocomiales partir de Documents Textuels Hospitaliers ANR TecSan 2008 Dans PSIP et dans Aladin l outil d velopp dans ma th se fera l objet d am liorations en terme de couverture terminologique et technologique Il est sans doute probable que je continue travailler sur F MTI dans le cadre de ces trois projets 167 Troisi me pa
345. ond sur de pr c dents travaux du laboratoire IMAG notamment sur l outil No sis un outil pour l annotation textuelle et conceptuelle de documents Patriarche05 Nous pr sentons BIBLIS car il est pr vu par la soci t Vidal d int grer celui ci F MTI afin de proposer aux indexeurs humains une proposition d indexa tion automatique pour les documents qu ils indexent l avenir l arriv e d un nouveau RCP l indexeur sera invit l indexer l aide de l outil BIBLIS L outil permet de visualiser le RCP ainsi que les diff rentes termi nologies n cessaires son indexation dont le TUV et d autres terminologies comme le dictionnaire ATC etc Cet outil permet de r aliser une indexation manuelle classique s lection d un terme d une terminologie et indexation du RCP avec ce terme cr ation d un lien entre le terme et le document Les fonctionnalit s princi pales propos es par BIBLIS afin de faciliter l indexation des RCP sont voir figure 5 1 navigation facilit e l int rieur du RCP et dans les diff rentes terminologies visualisation des diff rentes propri t s pour chaque terme 1 R f rences sp cifications de l outil BIBLIS r dig s par R Patriarche Timc et B Plaisantin Vidal Toute l quipe scientifique ainsi que moi m me avons particip la r flexion autour de ces sp cifications 141 Chapitre 5 Applications du F MTI Section 5 2 Applicati
346. onnaire de terme exemple tr s fr quent gt indexation des rubriques non prises en compte ici Composition lt Posolo gie et mode d administration gt et interactions m dicamenteuses gt qui peuvent contenir des termes lt PE gt De plus les travaux concernant l XMLisation des RCP tant achev s ceci r soudera les problemes de conversion de tableaux et am liorera la reconnaissance des ru briques Dans cette indexation aucun trancodage n a t utilis car il n existe au jourd hui aucun transcodage vers le TUV indexation mono terminologique Le TUV pourrait tre int gr dans un futur proche au metath surus de PUMLS par l quipe Vidal 4 3 Conclusion Nous avons effectu diff rentes valuation de F MTI qui ont permis de juger de ses performances Le chapitre suivant pr sente les applications qui peuvent tre faites de l outil 140 Chapitre 5 Applications du F MTI 5 1 Introduction Apr s l valuation de notre outil F MTT nous voyons dans ce chapitre les diff rentes mises en application envisag es 5 2 Applications pour l indexation semi automatique de RCP BIBLIS 5 2 1 Pr sentation de l outil BIBLIS Comme explicit la section 1 3 2 la soci t Vidal avec l aide du laboratoire IMAG de Grenoble travaille sur un outil d indexation semi automatique nomm BI BLIS BIBLIS permet l indexation des RCP en utilisant le TUV Le d veloppement de cet outil est f
347. onographie pour la sp cialit retrouv e Les logiciels Vidal mettent la disposition des utilisateurs des fonctionnalit s de s curisation de la prescription avec entre autres d tection des interactions m dicamenteuses et proposition d alternatives th rapeutiques sp cialit apparte nant la m me classe pharmacoth rapeutique ou dont l indication th rapeutique est identique C est ainsi qu apr s une recherche de sp cialit s que le m decin d sire prescrire il peut proc der l analyse de sa prescription m dicamenteuse Au vu de la pr sence des deux sp cialit s lt Teralithe 400mg en comprim gt et lt Advil 400 mg en comprim le syst me va mettre une alerte puisque cela peut entra ner une toxi cit pour le patient voir figure 1 5 Le syst me peut alors proposer de remplacer l une des sp cialit s par une autre qui n entrainerait aucune interaction exemple remplacer lt Advil gt par l ALGISEDAL en comprim L outil d aide la prescription peut aussi prendre en compte l tat physio pathologique d un patient grossesse allaitement insuffisance r nale poids ge sexe etc d crit l aide des terminologies standards CIM10 CISP DRC Ces l ments sont li s aux informations contenues sur les m dicaments en base afin de cr er des alertes de diff rents niveaux contre indications et pr cautions d em ploi exemple la prescription de la sp cialit lt Sec
348. ons une tude pr liminaire dans le cadre de la prise en charge de l hypertension IC 2004 15es journ es francophones d ing nierie des connaissances 2004 65 76 SFMG Dictionnaire des R sultats de concultation Doc Rech Mec Gen 1996 47 48 220 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Sherertz90 Silberztein93 Silberztein04 Soergel88 Soualmia03 Soualmia04 Spackman97 Sundvall07 Thirion98 Thirion04 Thirion07 Tse03 Sherertz D Olson N Tuttle M Erlbaum M Source Inversion and Matching in the UMLS Metathesaurus Proceedings of the lth annual SCAMC IEEE Computer Society Press 1990 141 145 Silberztein M Dictionnaires l ctroniques et analyse automa tique de textes le syst me INTEX Masson Ed Paris 1993 Silberztein M NooJ an oriented object approach Royaut 2004 Soergel D Indexing and retrieval performance the logical evidence Journal of American Society for Information Science 1988 39 3 161 176 Soualmia L Barry C Darmoni S Knowledge Based Query Ex pansion over a Medical Terminology Oriented Ontology Artif Intell Med 9th Conference on Artificial Intelligence in Medi cine in Europe AIME 2003 Soualmia L Etude et Evaluation d Approches Multiples d Ex pansion de Requ tes pour une Recherche d Information Intelli gente Application au Domaine de la Sant sur Internet Ph D thesis INSA de Rouen
349. ons pour l indexation semi automatique de RCP BIBLIS emus zzo alex In Out H 4 Process x Indexing Help otites moyennes aigu gt Bronchite e otites moyennes aigu s de l adulte e sinusites maxillaires aigu s et autres formes de sinusites Indications th rapeutiques x E INDICATIONS TH RAPEUTIQUES otitas moyennesaigus EE Elles proc dent de l activit antibact rienne et des caract ristiques pharmacocin tiques de ce ji Broneiite rs m dicament Elles tiennent compte la fois des tudes cliniques auxquelles il a donn lieu et de sa ssurinechans detre place dans l ventail des produits antibact riens actuellement disponibles Proposition auto Doct Elles sont limit es aux infections dues aux germes reconnus sensibles notamment certaines situations F o les esp ces bact riennes responsables de l infection peuvent tre multiples et ou r sistantes aux uses antibiotiques actuellement disponibles Sur ces bases ce m dicament pr sente un int r t tout 9 IND particulier dans les indications suivantes gt Otite Ciblor Adulte 500 mg 62 5 mg Ciblor Adulte 1 g 125 mg Ready surinfections de bro x e angines r cidivantes amygdalites chroniques z ns de bro Ir
350. orithme du sac de mots d origine Soualmia04 Cette liste a t enti rement retravaill e afin d y ajouter des mots vides et d liminer les mots pouvant tre utiles l indexation comme les termes de l axe G de la SNOMED qui contient les termes de liaison et liminer les mots vides inutiles car rarement retrouv s lt boum gt ou encore lt snyff gt Nous avons consult plusieurs bases de donn es sur Internet pour trouver de nouveaux mots vides Les mots vides consid r s sont les pronoms possessifs exemple lt mon gt les conjonctions exemple lt mais gt les d terminants exemple lt du gt les interjections exemple lt diantre gt les pr positions exemple lt durant gt les pronoms personnels exemple lt il gt les pronoms possessifs exemple lt leur gt les pronoms relationnels exemple lt auquel gt les symboles et locutions exemple lt ainsi gt En plus des mots vides il existe des expressions vides exemple lt tout d abord gt Une liste d expressions vides a ainsi t cr e et ajout e la liste des mots vides 9 Lexique fournit une base de donn es lexicales avec des estimations de fr quences et des formes fl chies accessibles via http wuw lexique org 94 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point La liste des mots vides est ordonn e afin d li
351. ormation ont t pr sent s des m decins du secteur priv ainsi qu des petits hospitaux priv s n lt 100 lits Un groupe de cliniques priv teste le produit que nous avons appel French Info But ton gt Plusieurs industriels dans le secteur des syst mes d information de sant ont recemment visit l h pital de Rouen afin de tester les boutons contextuels en envi ronment r el Les tables de transcodage devront tre mises jour chaque nouvelle version des terminologies impliqu es 7 2 5 Perspectives A plus long terme nous voudrions appliquer le m me principe de connaissance contextuelle partir d un compte rendu texte Les boutons seront alors accessibles sur la barre d outil du logiciel permettant la r daction et la lecture du compte rendu d hospitalisation voir figure 7 4 avec l appa ration du bouton de recherche d information dans la barre d outil du logiciel Microsoft Word Ce bouton donnera l acc s l indexation CIM10 et CCAM produite par F MTI et pour chaque terme l acc s aux connaissances contextuelles correspondantes sur Internet Un profil plus labor pourrait aussi permettre de renseigner d autres ca ract ristiques comme le secteur d activit du m decin ou pourrait permettre de renseigner plusieurs profils pour permettre au m decin de rechercher de l informa tion pour lui m me ou pour transmettre son patient Nous pourrions aussi imaginer une diffusion s
352. ou technique Compteur Le premier code constitue le codage du syst me exemple syst me respira toire gt G La deuxi me lettre constitue le codage de l organe ou de la fonction exemple lt pl vre gt GG La troisi me lettre correspond au codage de l action principale du libell exemple lt vacuer gt J 45 Domaine de formation exemple cardiologie ou pneumologie 46 Voie d acc s pour un acte ou une exploration chirugicale 52 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation La quatri me lettre code le mode d acc s ou la technique utilis e exemple lt abord ouvert gt A Chaque code 4 caract res est affect d un compteur 3 chiffres pour diff rencier les actes ayant m me code anatomique m me code d action et m me code de voie d abord ou de technique exemple Evacuation de collec tion de la cavit pleurale par thoracotomie sans r section costale gt GGJA002 et lt Evacuation de collection de la cavit pleurale par thoracotomie avec r section costale gt GGJA004 Les concepts Ccam Un code semi structur de 7 caract res Le code activit 1 caract re Q Le code extension documentaire 1 caract re La phase de traitement 1 caract re Les modificateurs tarifants 1 caract re 2 possibles Les modificateurs non tarifants 1 caract re 2 possibl
353. ouhaiterait aussi proposer une nouvelle fonctionnalit aux m decins qui leur permettrait d acc der directement aux passages importants du RCP d s lors qu une alerte est produite Ceci suppose d existence d un lien entre l indexation et la ou les portion s de textes correspondantes dans le RCP C est ainsi que le Vidal s est pench sur l indexation assist e ou semi automatique avec le d veloppement d un nouvel outil de travail pour les indexeurs de l quipe scientifique BIBLIS d velopp par l quipe IMAG de l Universit de Grenoble Au d but de cette th se ce logiciel tait en discussion les sp cifications n avaient pas encore t con ues 1 3 3 Activit s de recherche du LERTIM 1 3 3 1 Domaine de Recherche du LERTIM La recherche m dicale au laboratoire LERTIM s int resse l laboration de syst mes d information hospitaliers performants adapt s et volutifs Fieschi05 Le dossier m dical informatis est l une des composantes du syst me d informa tion en r seaux de l h pital Ce dossier permet de recueillir pour chaque patient toutes les informations qui ont trait son tat de sant et son parcours de soin En outre l informatisation de ce dossier permet de faciliter la coordination des soins et la communication entre les diff rents professionnels de sant avec un syst me de prise en charge partag e du patient au sein des diff rentes structures de soins d
354. p J Weber FIGURE 1 4 Les diff rents projets de l quipe CISMeF De nombreux travaux visant am liorer la recherche d information dans CIS MeF ont t men s afin de permettre une recherche d information plus intelligente et plus efficace voir figure 1 4 pour une revue des projets Au centre des activit s de l quipe CISMeF se trouve la terminologie CISMeF que 21 http www google com custom hl fr amp lr lang_fr amp client google coop np amp cof AH 22 http wwuw google com coop cse cx 015430007758165987576 3Ab3cmganduas amp hl fr 23 Les publications engendr es par ces travaux sont disponibles via http www chu rouen fr 1 stics publis html Chapitre 1 Contexte Section 1 3 Contexte scientifique nous d crivons la section 2 4 1 2 C est en effet sur cette terminologie que repose les principaux travaux pour la recherche d information dans le moteur CISMeF Elle permet de d crire les ressources indexation des ressources l aide de mots cl s ap partenant a la terminologie la requ te d un utilisateur traduction de la requ te a l aide de mots cl s appartenant la terminologie et ainsi de faire correspondre une requ te un ensemble de documents du catalogue cette notion est davantage d crite dans 2 2 1 0 2 L quipe CISMeF est donc tr s impliqu e dans des travaux touchant l enrichissement des terminologies m dicales fran aises notament pour le MeSH ter minologi
355. patients des fins statistiques et budg taires dans le cadre du PMSI en France Puis a succ d la 10 me r vision la Classification statistique internationale des maladies et des probl mes de sant connexes en 1993 OMS93 plus adapt e aux statistiques d assurance maladie et au paiement centralis des services m dicaux Elle a remplac en France la CIM9 pour le PMSI alors que la neuvi me r vision est toujours utilis e aux Etats Unis Des extensions de codes de la CIM10 ont t cr es pour le PMSI par le PERNNS P le d Expertise et de R f rence National des Nomenclatures de Sant et l ATIH Agence Technique de l Informatisation sur l Hospitalisation pour apporter plus de pr cisions certains codes et am liorer le classement en GHM Plusieurs langues sont disponibles pour la CIM10 fran aise suisse allemande australienne n erlandaise espagnole La CIM10 comporte 3 volumes la table analytique qui contient la classifica tion en elle m me le manuel d utilisation et l index alphab tique La CIM10 est or donn e en une hi rarchie h ritage simple Cela signifie que toute entit hi rarchique poss de un unique p re La hi rarchie de la CIM10 a jusqu 6 niveaux La CIM a t construite l origine de fa on statistique la granularit des diff rentes branches 37 La CIM10 est disponible sur papier en librairie en version lectronique ou sur le site de VATIHhttp www atih s
356. peutique ou par ordre alphab tique des recommandations Actuellement 125 re commandations Vidal sont disponibles L utilisateur peut aussi taper une requ te en texte libre Toutes les recommandations dont le titre correspond la requ te sont propos es Pour aider les utilisateurs tendre leurs recherches nous avons cr un acc s contextuel afin de lier VidalReco d autres bases de connaissances sur les recom mandations Le choix s est port sur des sites de r f rence et de qualit o les docu ments sont soigneusement r pertori s facilitant ainsi la recherche Les sites indexant les documents l aide de la terminologie MeSH et publiant des recommandations francophones le site CISMeF et trang res pour les principaux sites m dicaux in ternationaux PubMed NHS NGC Intute et CMA Infobase ont t s l ctionn s Chaque lt recos gt est li e un ou plusieurs termes de recherche plus de 3 000 termes de recherche Afin de permettre l interrogation du site CISMeF chaque terme de recherche a t traduit en une requ te CISMeF l aide de mots cl s MeSH et d op rateurs exemple la lt recos gt qui porte le titre M nopause traitement hormonal gt est li e au terme de recherche lt traitement hormonal substitutif gt qui a t traduit par la requ te CISMeF lt menopause mc ET traitement hormonal substi tutif mc gt voir l onglet lt approfondir recommandations francophones figure 7 7
357. phique en anglais accessible via http www ncbi nlm nih gov pubmed 12 Une ressource publique pour les recommandations de bonne pratique accessible via http www guideline gov 13 Pour plus d informations voir le site de Vidal http www vidal fr 26 Chapitre 2 tat de l art Section 2 3 D finition de l indexation et du codage Le dossier patient qui pourrait tre consid r comme une base documen taire qui associe chaque document compte rendu de s jour courrier des m decins voir r sultats d examens ou radiographies les termes CIM10 CCAM et SNOMED 3 5 correspondants aux diagnostics actes et autres l ments m dicaux g n raux Dans le cadre d une recherche contextuelle chaque concept du langage docu mentaire voir section suivante seront associ s des index positionnels adresse du document num ro de chapitre de paragraphe de phrase et position du mot dans la phrase C est le principe de la future base de donn es Vidal qui pour chaque terme du TUV index pour une sp cialit regroupera le les frag ment s textuel s correspondant du RCP Nous appellerons cette indexation indexation documentaire en analyse de donn es l indexation consiste recenser certains concepts pr sents dans un document repr sent s l aide d un langage fonctionnel voir section suivante Cette indexation sert non pas d crire le document mais iden tifier certains concepts l int r
358. ple le terme lt am putation de deux doigts ou plus compl te partielle gt Ces probl mes ne peuvent tre r solus d une mani re simple automatique et rapide Ils pour 86 Chapitre 3 Conception de l extracteur multi terminologique Section 3 7 Conversions des fichiers raient tre trait s dans l avenir grace des transducteurs pour certains mais d autres solutions restent envisager pour r soudre l ensemble de ces cas de mani re automatique Pour les expressions de type lt autre gt exemple M20 5 lt Autres d formations d es orteil s gt qui n ont pas de fils pouvant pr ciser les lt autres gt formes aucune solution part celle d liminer ce terme si un de ses fr res est re trouv ne peut tre trouv e en utilisant cette seule terminologie En ef fet rien ne nous permet de distinguer dans une phrase o l expression lt d formation de l orteil gt est pr sente s il s agit d une lt D formation d es orteil s sans pr cision gt ou d une autre d formation La solution est de re chercher dans les liens de transcodage entre le terme M20 5 et toutes les autres d formations de l orteil non r pertori es dans la CIM10 appartenant la SNOMED 3 5 par exemple Cette op ration est r alis e gr ce la multi terminologie voir la section Restriction une ou plusieurs terminologies Les traitements sur la CIM10 ont abouti la cr ation de 41 258 libell
359. pr sent figure 3 3 Ce mod le pr sente 8 classes Classe des Thesaurus But Cette classe r unie tous les termes de r f rence du thesaurus TUV Les attributs Les attributs thesaurus_id et thesaurus_name d signent le code et le libell du terme d indexation TUV Classe des Concepts But Cette classe r unie tous les termes l mentaires d crivant un terme de r f rence du TUV Les attributs Les attributs concept id et concept name indiquent le code et le li bell du concept Des attributs permettent ensuite de d crire le type du concept concept type renseigne le type tat ou compl ment et concept_semanticLabel d signe le type s mantique pathologie physiologie etc Enfin l attribut thesaurus_id est le code du terme de r f rence d crit par le concept Commentaires Il existe de 1 n termes l mentaires d crivant un terme de 190 Chapitre A Annexes Section A 2 Mod les unitaires pour la base de donn es multi terminologique r f rence Classe des Group But Cette classe d signe les liens d appartenance d un terme d indexation a un groupe d indications Les attributs L attribut thesaurus id d signant le code TUV du terme d indexation est ainsi li un groupe d indication d crit par l attribut group name Commentaires Un terme d indexation peut tre rattach 0 n groupes d indications Classe des Classification_X
360. ption Il nous semble judicieux de construire non pas trois outils mais bien un seul outil capable de r aliser ces diff rentes t ches Nous tenterons donc d explorer un univers encore inconnu pour chaque quipe celui de l indexation automatique multi terminologiques multi documents et multi t ches Nous tenterons aussi d am liorer l acc s aux ressources m dicales sur Internet afin d aider les utilisateurs dans leurs recherches d information pour l aide a l apprentissage et la d cision Apr s cette analyse des besoins nous allons nous int resser l tat de l art afin de d terminer les solutions envisageables 43 Chaque quipe pratiquait une indexation manuelle monoterminologie pour une t che pr cise et ne s interessait qu un seul type de documents 18 Chapitre 2 Etat de l art 2 1 Introduction Les besoins tant identifi s nous allons dans ce chapitre examiner l tat de l art relatif notre sujet Deux domaines dans lesquels s inscrivent ces travaux se d gagent Le premier est la recherche d information lectronique l indexation des docu ments tant r alis e des fins de recherche d information au sein du dossier patient lectronique et du moteur de recherche CISMeF L indexation des RCP elle n est pas r alis e des fins de recherche d information mais dans un objectif de d clenchement d alertes de s curisation Nous voyons la un deuxi me dom
361. que lt cause de maladie class en gt ou lt class s ailleurs gt sont inutiles pour l indexation et seront limin s grace une liste d expressions dites lt vides gt Cette liste contient 63 expressions Une forme n gative en lt non gt exemple le terme lt n phrite tubulo interstitielle non pr cis e comme aigu ou chronique gt Attention pour les termes comme lt rayonnement non ionisant gt l expression lt non ionisant gt fait partie int grante du terme et sera retrouv e dans sa forme textuelle Les premiers cas ont t automatiquement trait s grace la liste des expressions vides Les termes du second cas ne sont pas trait s Une forme d exclusion lt sauf gt lt sans gt lt SA I gt lt sans pr cision gt sans autre indications sans mention de confirmation bact riologique gt sans si ge lo calisation niveau pr cis gt Les expressions r currentes ont t recueillies dans la liste des expressions vides puis limin es pour tous les termes de la CIM10 Les expressions sans gt peuvent indiquer des l ments de pr cision pour le terme G n ralement il existe dans la terminologie le terme avec l expression inverse avec gt exemple les termes 90 1 et S90 2 lt Contusion d un des orteil s sans l sion de l ongle gt et lt Contusion d un des orteil s avec l sion de l ongle gt Ces cas sont trait s en liminant automatiquement l e
362. r s loign s de la r alit Une version fran aise de MTI pourrait tre envisag e afin de comparer les r sultats voir discussion Le syst me CIREA Nakache07 produit une meilleure pr cision et un meilleur rap pel Afin de confirmer ces r sultats il faudrait valuer ces deux outils sur le m me corpus Enfin l outil MedCKARe Baneyx06 produit de meilleurs r sultats pour la Pneu mologie mais il est incapable d indexer des diagnostics d autres secteurs De la meme fa on ceci devra tre confirm par l valuation de ces deux outils sur le m me corpus B n fices Le syst me F MTI peut traiter un compte rendu en 1 2 seconde Ces performances permettent une indexation automatique en temps r el Le temps n c ssaire au codage diagnostic tant largement influenc par celui n cessaire la d couverte des codes dans la terminologie ceci permettrait de lib rer du temps 6 Observation par rapport plusieurs articles 7 Int gration un serveur 4 coeurs 126 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es pour les praticiens Une valuation de F MTI dans le cadre d une indexation semi automatique devra tre r alis e R sultats de Vindexation CCAM La m me tude a t r alis e pour l indexation des comptes rendus en CCAM Malheureusement F MTI prouve de grande difficult s extraire les termes CCAM Ceux ci sont tr s complexes exemple
363. r la description des effets ind sirables m dicamenteux les indications les signes et sympt mes l histoire familiale les examens de laboratoire et les interven tions chirurgicales 5 La terminologie WhoArt World Health Organization Adverse Reaction Terminology d crit les effets secondaires pour les m dicaments 146 Chapitre 5 Applications du F MTI Section 5 3 Indexation automatique de dossiers patients Il peut rechercher aussi l int rieur du dossier d un patient quels sont les l ments qui se rapportent aux traitement de son asthme ou quel moment a eu lieu son dernier bilan sanguin voir m me comparer deux instants t des r sultats de biologie etc Lorsque le dossier du patient est volumineux o que celui ci est atteint d une maladie chronique cela peut aider mieux prendre en charge ce patient Le patient peut aussi retrouver des informations dans son propre dossier Une r flexion sur la conception d un outil de type Google pour l acc s des pa tients leurs donn es de sant a t apport par C Quantin Nous proposons quant nous l indexation des donn es par F MTI coupl e un moteur de re cherche de type CISMeF et des strat gies de recherche adapt es Une th se a t lanc e tr s r cemment sur ce sujet en septembre 2008 dans l quipe CIS MeF th sard Ahmed Diouf Cette recherche d information peut tre associ e de nombreux filtres Nous proposons au
364. r les principaux r sultats ainsi que d voquer les diff rentes perspectives Le chapitre 7 pr sente notre contribution en matiere d acc s aux connaissances pour les professionnels de sant les patients et les tudiants ayant besoin dans leur quotidien d informations de sant que ce soit dans le cadre de l apprentissage de nouvelles connaissances d aide a la d cision ou de suivi d une prise en charge Des m thodes prenant en compte le contexte et permettant des acc s simplifi s la bonne information au bon moment et pour la bonne personne sont pr sent es Enfin le dernier chapitre dresse un bilan sur le travail r alis dans le cadre de cette th se et rassemble les perspectives de recherche qui s en d gagent xii Premi re partie Contexte et tat de l art Chapitre 1 Contexte 1 1 Introduction Dans ce chapitre nous exposons le contexte des travaux effectu s Dans un premier temps nous d crivons le contexte administratif avec une pr sentation des diff rentes quipes impliqu es Nous rendons compte du contexte scientifique par une br ve description des travaux de chacune des quipes Enfin nous faisons la synth se des diff rents besoins exprim s qui ont men l laboration du sujet de cette th se 1 2 Contexte administratif Les travaux pr sent s dans ce m moire sont le r sultat de ma th se d informa tique d but e en mars 2006 Cette th se est r alis e dans le c
365. racture_ ant c dent 2548 CC TUV yeux infect s infections des yeux 530 CC TUV ant c dents r cents d infarctus du myocarde infarctus du myocarde_ ant c dent r cent d 3589 CC TUV Voici quelques exemples de variantes rejet es ge du sujet sujet ag 6258 CC TUV augmentation de la charge augmentation du poids 624 CE ETAT PATHO TUV 25 En effet la faiblesse de nos transducteurs est qu ils permettent de g n rer des variantes avec des lemmes repr sent s plusieurs fois Exemple pour le transducteur 3 13 si le corpus contient cette variante lt diminution diminution de la coagulation gt la variante est retrouv e 26 M Korshia pharmacienne et gestionnaire du th saurus chez Vidal 103 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point maladie cette p riode maladie p riodique 8d543 CE ETAT MALADIE TUV h morragique d un accident accident h morragique 28 CE scientifiquet TUV 3 8 2 7 Cr ation de nouvelles variantes Une fa on simple d obtenir des variantes suppl mentaires est de g n rer automa tiquement les variantes flexionnelles pluriels et singuliers pour chaque variante d ja r pertori e Nous avons produit ces variantes pour les termes de deux mots et moins leurs constructions tant simple Un script Perl permet de g n rer ces variantes voir algorithme figure 3 16 Nous avons ainsi g n r 4 279 variantes non r pertori e
366. rche d in formation s appelle la recherche translangue La recherche d information translangue peut tre consid r e comme une extension de la recherche d information monolangue Chiao04 En pratique elle peut tre abord e de deux fa ons La premi re est la tra duction des documents dans la langue de la requ te malheureusement les m thodes de traductions automatiques ne sont pas encore assez performantes et la masse de documents sur Internet est trop importante La deuxi me approche est la traduction de la requ te Le site CISMeF utilise cette approche en permettant l utilisateur de rechercher des documents en fran ais partir d une requ te tap e en fran ais et en anglais Il propose aussi en r sultat d une requ te des liens vers des catalogues majoritaire ment anglophones de qualit en sant offrant ainsi aux utilisateurs la possibilit d approfondir leurs recherches En choisissant d tendre sa recherche sur l un de ces sites l utilisateur voit sa requ te entr e en fran ais dans CISMeF traduite automa tiquement en anglais Ceci est rendu possible gr ce l utilisation par tous ces sites d un thesaurus multilingues le thesaurus MeSH L approfondissement de la recherche dans CISMeF sur d autres catalogues n est pour l instant disponible que pour les ressources adapt es aux m decins type de ressources lt recommandations gt Un travail similaire reste r aliser pour l acc
367. re r vision application de r gles d indexation optionnel 4 pour le stockage de l indexation il reste lier dans une base de donn es les termes d indexation au document index En pratique voici ce que l on peut observer L indexation documentaire consiste parcourir le document rep rer et s lectionner les donn es caract ristiques du contenu et retrouver la repr sentation symbolique qui en est faite dans la terminologie utilis e L utilisation de logiciels de navigation et d interrogation de terminologies peut fournir une aide informatique Le document peut tre lu rapidement afin d en avoir une compr hension g n rale ou tr s attentivement dans le cas o l indexeur devrait lier manuellement les portions de texte retenues aux termes index s contenus dans la terminologie Un travail de synth se est n cessaire afin de ne s lectionner que les l ments importants pour les faire appara tre dans l indexation L indexation peut tre diff renci e ou non elle est alors dite plat Une indexation diff renci e impose l indexeur de ranger les termes par ordre d importance selon qu ils d crivent plus ou moins bien l ensemble ou une partie du document index Les terminologies peuvent tre accompagn es de r gles d usages que les indexeurs doivent suivre exemple afin de pr ciser le sens d un terme celui ci peut tre associ un qualificatif pour lequel une association est
368. recherche En effet plus l indexation d un document est fournie plus on entre dans les d tails et plus il y a de risques de prendre en compte des aspects qui sont trait s superficiellement dans ce document et qui n en sont donc pas vraiment caract ristiques cela engendrera du bruit lors d une recherche Par ailleurs si la description est limit e aux th mes principaux sans prise en compte de la vari t des sujets trait s dans les documents cela engendrera du silence dans la recherche Les termes peuvent tre organis s et leurs r les pr cis s ou encore structur s dans un v ritable r seau s mantique Coret94 L indexation peut pr senter une variabilit d un groupe d indexeur l autre d un indexeur l autre et galement pour un m me indexeur deux instants diff rents L indexeur peut ne pas avoir de connaissances tr s pointues dans le domaine sur lequel il travaille Le temps d indexation d pendra des connaissances dans le domaine d indexation de l indexeur de l exp rience de celui ci de ses connaissances de la terminologie utilis e de la complexit de cette terminologie de la longueur et de la complexit du document Le codage est une forme d indexation qui consiste finalement indexer des codes et non pas les termes associ s Pour l instant ces approches sont propres l analyse humaine l ordinateur n est capable de la simuler que dans une faible mesure 2 4 Les
369. risque fracturaire Preuve scientifique tablie Pr somption scientifique Faible niveau de preuve Recommandations francophones scientifique Les Approfondissement de la recherche Accord professionnel fort aur le me insonause el sis traitement hormonal substitutif 10 re disponible s Les Recos en poche pa er m e pl raitement af hormonal 2007 promets Sunvoance annuels Traitements hormonaux substtutifs PRATIQUE r valuation du rapport b n ficeirisque si patiente sous THM THS de la m nopause Les Mpral a Audition publique rapport oo Bigot d orientation 2004 Prise en charge compl mentaire tous lez r sulta des apports en calcium et en vitamine D sont recommand s les ventuels facteurs de risque cardiovasculaire associ s doivent tre d pist s et trates 2e dition 1416 pages 29 90 Recommandations internationales Lancer la m me recherche sur les sites nei FIGURE 7 7 Site VidalReco NHS 4 NGC Intute 2 et CMA Infobase un mod le de requ te adapt a t cr par l quipe CISMeF ce sont les m mes mod les qui sont discut s dans la section pr c dente Ce qui permet l utilisateur souhaitant approfondir sa recher cher d acc der directement aux recommandations francophones et internationales en un clic 7 5 Recherche translangue Un patient recherchant une information en sant
370. rm 2007 129 Pt 1 640 4 Nakache D Metais E Timsit J Evaluation and NLP procee dings of DEXA Database and Expert System Application 2005 626 632 Nakache D Extraction automatique de diagnostics a partir de comptes rendus m dicaux textuels Ph D thesis Conservatoire des Arts et M tiers 2007 Namer F FLEMM un analyseur flexionnel du fran ais base de r gles Traitement Automatique des Langues 2000 41 2 523 47 Namer F Dal G G D riF automatic generation and analysis of morphologically constructed lexical resources Proceedings of the Second International Conference on Language Resources and Evaluation 2000 1447 1454 Neveol A Mork J Aronson A Darmoni S Evaluation of French and English MeSH Indexing Systems with a Parallel Corpus AMIA Annu Symp Proc 2005 565 9 Neveol A Pereira S Soualmia L Thirion B Darmoni S A method of cross lingual consumer health information retrieval Stud Health Technol Inform 2006 124 601 608 Neveol A Shooshan S Humphrey S Rindflesh T Aronson A Multiple approaches to fine grained indexing of the biomedical literature Pacific Symposium on Biocomputing 2007 12 292 303 N v ol A Automatisation des taches documentaires dans un catalogue de sant en ligne Ph D thesis INSA de Rouen 2005 N v ol A Mork J Aronson A Darmoni S Evaluation of French and English MeSH indexing systems with a parallel cor pus AMIA Annu Symp Pro
371. rons lexicosyntaxiques afin de reconnaitre ces combinaisons La n gation est aussi g r e L valuation de cet outil sur un corpus de 500 comptes rendus a montr un rappel de 25 et une pr cision de 87 MedCKARe propose aussi une interface d di e l aide au codage 2 5 3 2 4 CIREA Un outil d aide au codage PMSI pour les services de r animation a t impl ment par D Nakache Nakache07 dans le cadre du projet CIREA Classification Informa tique pour la REAnimation L outil d velopp permet d extraire les codes CIM10 partir de comptes rendus hospitaliers r dig s en langage naturel Il utilise un algo rithme de classification par apprentissage l algorithme CLO3 qui s inspire la fois de TF IDF et de Naive Bayes Bayes 1763 Cet algorithme a montr de meilleurs 70 Voir http www computationalmedicine org challenge 71 projet faisant parti d un projet plus vaste le projet RHEA qui vise mettre en oeuvre des structures informatiques d cisionnelles pour les services de r animation 72 Chapitre 2 Etat de l art Section 2 5 Aide l indexation r sultats que d autres m thodes analogues k PPV SVM Naive Bayes TF IDF RM L valuation du syst me a donn une pr cision de 43 7 et un rappel de 38 6 pour Vindexation de 10 000 comptes rendus avec 30 000 comptes rendus appris 2 5 3 2 5 SnoCode SnoCode est un outil de la soci t canadiennes MedSight f qui date de la fin des
372. rs m dicaux la CIM10 OMS93 Classification statistique International des Maladies et des probl mes de sant connexes version 10 la CCAM Rodrigues05 Classification Commune des Actes M dicaux la CISP2 Lamberts87 Classification Internationale des Soins Primaires 2i me version le DRC SFMG9 6 Dictionnaire des R sultats de Consultation et la CIF CIH WHO Classification Internationale du Fonctionnement du handicap et de la sant la terminologie de MedlinePlus Base de donn es bibliographiques de la NLM les concepts et le r seau s mantique de l UMLS Aronson01 Syst me de Lan gage M dical Unifi permettant l int rop rabilit entre plus de 100 terminolo gies et d autres terminologies adapt es la recherche de m dicaments comme les noms commerciaux les DCI et les codes CIP CIS 13 ATC 14 et CASH Ce virage a d j t amorc pour le catalogue CISMeF dans le cadre du projet PSIP Patient Safety through Intelligent Procedures in medication voir section 5 7 avec l int gration des terminologies sur les m dicaments Letord pour la cr ation d un portail d information sur le m dicament PIM Le moteur de recherche Doc CIS MeF permet pour le moment de rechercher des codes CAS CIS et ATC dans les titres et sous titres des ressources Il va tre tr s rapidement possible d indexer automatiquement les ressources l aide de toutes les term
373. rtie Contribution l acc s aux connaissances 168 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances 7 1 Introduction Apr s nous tre int ress s l indexation nous pr sentons notre contribution en mati re d acc s aux connaissances Nous avons vu que les professionnels de sant les patients et les tudiants avaient besoin dans leur quotidien d informations de sant que ce soit dans le cadre de l apprentissage de nouvelles connaissances d aide la d cision ou de suivi de son tat de sant pour les patients voir section 2 2 4 L acc s a ces informations n est pas toujours ais or pour chacun et plus par ticuli rement le m decin les informations doivent tre rapidement consultables En effet les informations sur Internet ne sont pas toujours r f renc es et lorsqu elles le sont elles sont contenues dans de nombreuses bases de connaissances En outre il n est pas toujours ais de trouver une information compr hensible par l utilisateur langue formulation L objectif ici est d aider tout acteur dans sa recherche d information dans le do maine de la sant en offrant des acces simplifi s afin qu il accede a la bonne informa tion au bon moment Access to the right information at the right time for the right person La prise en compte du contexte rend cela possible Nous proposons donc plu sieurs m thodes et leurs applicatio
374. rveurs de terminologies industriels existants DTS Distributed Terminology System de la soci t Apelon et LExPlorer de la soci t Health Language 8 ce serveur de terminologies offre des fonctionnalit s plus importantes Un autre serveur de terminologies m dicales est en cours de r flexion dans le groupe hospitalier du Havre Celui ci est plus ax applications m tiers du dossier patient lectronique afin que les applications utilisent les m mes r f rentiels Briquet07 5 7 Optimisation de la prescription informatis e PSIP Les effets ind sirables s v res li s aux m dicaments s observent dans 6 des s jours hospitaliers entra nant au moins 10 000 d c s en France 98 000 aux USA Ceci constitue un probl me majeur de sant publique Dans ce contexte le projet PSIP Patient Savety Through intelligent Proce 26 Les tables existantes sont trop nombreuses et la structure trop complexe pour que F MTI fonctionne de mani re optimale 27 Pour plus de renseignements http www apelon com products dts htm 28 Pour plus de renseignements http www healthlanguage com p amp s_software html 29 Projet FP7 ICT 2007 5 2 Les partenaires du projet sont les CHU de Lille de Rouen de Denain et les H pitaux de Copenhague les soci t s Oracle IBM Danemark Medasys Vidal KITE solutions et Ideea Advertasing et les universit s UMIT Autriche AUTH Gr ce et AAU Dane mark 155 Chapitre 5 Applications d
375. s et d autres donn es comme le poids et l ge gestationnaire pour les nourrissons l indice de gravit simplifi IGS IT et des donn es documentaires associ es La codification ou indexation est r alis e dans la plupart des h pitaux manuelle ment par les m decins en charge du patient ou les secr taires du service qui n ont 32 Diagnostic ayant mobilis l essentiel de l effort m dical et soignant au cours du s jour hospi talier 33 Tout diagnostic permettant d clairer le contexte pathologique essentiellement lorsque le diag nostic principal n est pas en lui m me une affection Le plus souvent le diagnostic reli correspondra la maladie causale 34 Tout autre diagnostic du patient 35 Accessible ici http www atih sante fr index php id 0006500001FF 36 L indice de gravit est calcul en additionnant des scores Cet indice permet de pr dire le risque de d c s l admission dans une unit de soins intensifs ou de r animation ou de surveillance continue Le risque de mortalit est d autant plus important que l indice est lev AT Chapitre 2 Etat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation pas vu le patient et qui n ont pas de connaissances m dicales approfondies ce qui peut poser des probl mes de validit des donn es Les informations recueillies permettent par un traitement automatique de classer le RSS dans
376. s 4 oo ee bus due ER Eu ORE EN REY 226 vill Introduction g n rale 0 1 Probl matique Les informations m dicales sont nombreuses et tres dispers es Elles sont conte nues dans les rapports articles livres sous forme papier ou l ctronique Ces in formations l origine non structur es sont r pertori es class es et stock es dans des bases de donn es sous une forme exploitable par un ordinateur donn es structur es dans le but de permettre leur consultation et utilisation Ces donn es permettent un utilisateur un professionnel de sant ou un patient d acc der aux connaissances contenues dans les bases documentaires et de rechercher des informations Chaque document est d crit dans la base documentaire gr ce des informations sur la forme et le contenu Ces donn es permettent aussi l exploitation des connaissances par entre autres des outils d aide la d cision qui permettent de conseiller les praticiens dans leurs pra tique quotidienne Toutes les connaissances sont d crites dans une base de connais sance L indexation permet de traduire des donn es textuelles non structur es en donn es structur es Nous nous int ressons ici l indexation contr l e c est dire que la liste de tous les termes formant les donn es structur es est connue l avance et est stock e dans une terminologie Cette indexation est le plus souvent effectu e manuellement et prend beaucoup de temps
377. s indexer Pour un corpus de 10 000 documents de 5 pages chacun quelques petites minutes suffisent L application du dictionnaire tant ex cut e en une seule fois Les variantes sont valid es en amont ce qui lors de l indexation permet de g n rer un minimum d erreur ce qui n est pas le cas pour la m thode du sac de mots ou celle de la m thode des constituants voir section suivante Malheureusement la qualit de l indexation d pend du nombre de variantes r pertori es dans le dictionnaire Le nombre de variantes pour chaque terminolo gie est encore insuffisant pour couvrir l ensemble des variantes existantes En outre notre m thode d obtension de variantes a demand plusieurs mois d ex cution 3 8 3 M thode du dictionnaire de constituants 3 8 3 1 Principe de la m thode La m thode explicit e ci dessus peut tre impl ment e diff remment en prenant en compte les l ments constitutifs du terme et non les mots seuls ou le terme dans sa globalit Le principe est d indexer un terme pour une phrase si celle ci contient tous les constituants associ s ce terme Un constituant est d fini comme toute variante incluse dans un terme Exemple le terme lt angine de poitrine s v re gt comprend plus de 6 constituants angine lt angines gt lt poitrine gt s v re gt lt aigu gt lt angor gt etc 105 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M tho
378. s sp cialite lactose 01 09 2009 cardiologie infarctus du myocarde pneumologie s canc rologie 05 07 1987 podologie Jean Pierre Amigdalie Hypertension art rielle psychiatrie 56 ans ROUEN 10100 Tous O LOVENOX 0 9 2 par jour KARDEGIC 75 1 par jour PLAVIX 75 1 par jour DETENSIEL 10 1 par jour F venements pr vus Ant c dents familiaux PEE PU transfert au Havre Hypertension art rielle chez la m re D c s apr s infarctus du myocarde chez le p re Pour obtenir de l aide s lectionnez l option Rubriques d aide du menu d aide FIGURE 5 3 Maquette d une interface pour la pr sentation de r sum s automatiques Chaque acte et diagnostic serait extrait par F MTI et reli s aux comptes rendus correspondants gr ce un hyperlien Les donn es pourraient tre pr sent es par probl me ou et par ordre chronologique Un transducteur ou un dictionnaire sp cifique peuvent tre utilis s pour l extrac tion de dates Un transducteur NOOJ existe d j Des dictionnaires ont t cr es par P Bramsen Bramsen06 pour extraire les l ments li s au temps ou l encha nement des v nements comme la conjugaison ou les conjonctions de subordination anglaises exemple lt after gt Un moyen de relier les termes aux dates correspondantes serait d associer chaque date chaque terme ayant t extrait partir de la m me phrase 8 C Lovis s tait d j int ress
379. s 1995 21 4 543 65 Briquet D E L interop rabilit s mantique au GHH Coder l information m dicale du Dossier de Sant Informatis GDR STIC Sant Th me C 2007 Burnage G CELEX A Guide for Users Nijmegen Centre for Lexical Information University of Nijmegen 1990 Campbell K Carpenter P Sneiderman C e a Phase II Eva luation of Clinical Coding Schemes completeness taxonomy mapping definition and clarity J Am Med Inform Assoc 1997 4 238 251 CAP C o A P SNOMED CT Abstract Logical Model Repre sentational Forms Technical report November 2006 Cavazza M Dor L Zweigenbaurn P Model based natural language understanding in medicine Stud Health Technol In form 1992 1356 1361 Chapman W Bridewell W Hanbury P Cooper G Buchanan B A simple algorithm for identifying negated findings and diseases in discharge summaries J Biomed inform 2001 34 301 10 Chapman W Dowling J Chu D ConText an algorithm for identifying contextual features from clinical text Actes de 208 Chapitre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Charlet06 Chartron89 Chartron92 Chaumier92 Chevallier03 Chiao04 Cimino97 Cimino06 Coret94 Cori02 Covell85 C t 72 C t 93 Cuggia07 BioNLP2007 Biological translational and clinical language processing 2007 81 88 Charlet J Bachimont B Jaulent M Building medical on tolo
380. s qualificatifs et types de ressource Classe Hi rarchie cette classe structure la hi rarchie au sein du MeSH 80 Chapitre 3 Conception de l extracteur multi terminologique Section 3 4 Mod lisation des terminologies Classe Voir aussi cette classe renseigne tous les liens de voir aussi gt entre deux codes MeSH Classe des D finitions cette classe r unie pour chaque code MeSH les d finitions auxquelles ils sont rattach s Classe Dictionnaire cette classe indique toutes les variations flexions sy nonymes et leurs classes lexico syntaxiques pour chaque terme MeSH Classe des Actions pharmacologiques cette classe renseigne tous les liens action pharmacologique gt entre deux termes MeSH 3 4 1 2 Mod le TUV Nous pr sentons ensuite un deuxi me mod le celui de la terminologie TUV voir section 2 3 2 Ce mod le est pr sent figure 3 3 dans un formalisme UML les noms internes au Vidal ont t conserv s Ce mod le pr sente 8 classes voir Annexes cd Diagramme de classe le TUY thesaurus _Jd char group_nam echar 1 1 appartient HR ThesaurusLexicalAltemative thesaurus_Id char thesaurus_name char thesaurus_idichar thesaurusLe xical Aitemative_neme char ajouter void Adcher dX char Classifcation_X char de un lien vers Cone eptLexicalAttemative concept Ia char
381. s total entre deux indexations humaines Misset05 Ces observations permettent de soulever le probleme de l valuation qui peut expliquer les r sultats Le codage n tant pas reproductible il faudra r aliser une analyse qualitative fine des r sultats obtenus par l algorithme Une valuation plus grande chelle permettrait peut tre de faire pencher la balance de mani re plus significative Un corpus plus important de comptes rendus index s par plusieurs indexeurs humains pourrait tre envisag La r f rence serait alors le consensus de plusieurs indexations humaines Une valuation qualitative manuelle est en cours par notre expert qui pour chaque code index indique si celui ci est pertinent ou non Comparaison d autres syst mes d indexation automatique Pour le m me corpus de 100 comptes rendus l outil MAIF N v ol05a coupl un trans codage MeSH CIM10 voir section 2 5 3 2 obtient une pr cision de 15 et un rap pel de 28 Pereira06 Ceci permet de comparer un syst me d indexation multi terminologique pour la CIM10 et un syst me d indexation indirecte en CIM10 L indexation multi terminologique obtient un meilleur rappel mais elle produit une pr cision plus faible Le syst me MTI Aronson00 donne une F measure de 85 sur un corpus statisti quement normalis de 1 000 comptes rendus de radiologie Un corpus statistiquement normalis permet d obtenir des r sultats tr s lev s mais t
382. s voici quelques indications Classe des Termes cette classe comprend tous les termes de la nomenclature SNOMED Quelques commentaires l attribut axe renseigne l axe auquel appartient le terme de 1 11 L attribut Fmod F B indique la source du terme La lettre F signifie que ce terme est utilis principalement en France mais pas au Qu bec La lettre B signifie que c est un code de Bethesda L at tribut Fclass indique la classe du terme 0 terme de section ou chapitre 1 terme pr f r 2 synonyme 3 variante lexicale Classe des R f rences cette classe r uni pour chaque code SNOMED les codes SNOMED auxquels ils r f rent 196 Chapitre A Annexes Section A 3 Mod le g n ral Classe SNOMED_CIM cette classe comprend tous les liens de transcodages entre un terme SNOMED et un terme CIM10 Quelques commentaires l attribut source renseigne la source du code CIM CIM9 CIM10 code CIM9 suppl mentaire ou code CIM10 suppl mentaire A 3 Mod le g n ral Le mod le g n ral ainsi t d fini selon 7 classes voir figure 3 4 Classe des Concepts UMLS But Cette classe indique pour chaque code des diff rentes terminologies les liens vers les concepts UMLS quand ils existent donc seulement pour les codes MeSH exclu les termes sp cifiques CISMeF CIM10 et SNOMED Cette classe est inspir e de la table MRCONSO contenant les sources et les noms des concepts dans le
383. s champs de la table MRREL A 2 Mod les unitaires pour la base de donn es multi terminologique A 2 1 Mod le CISMeF Le mod le de repr sentation de la terminologie CISMeF d duit de la description faite la section 2 3 2 est pr sent figure 3 2 Neuf classes ont t identifi es Classe des descripteurs But Cette classe renseigne les descripteurs du th saurus Les attributs L attribut code d signe le code et l attribut code hier les codes arborescences de 1 n MeSH pour le descripteur Le libell du descripteur est inscrit dans l attribut libell avec la langue dans lequel il est exprim via l attribut langue anglais ou fran ais L attribut qualifs_affiliables renseigne les codes des qualificatifs affiliables pour le descripteur de 0 n Enfin l attribut PT permet d indiquer le statut du terme PT terme pr f r S synonyme 188 Chapitre A Annexes Section A 2 Mod les unitaires pour la base de donn es multi terminologique Classe des Qualificatifs But Cette classe renseigne tous les qualificatifs du th saurus MeSH Les attributs Le code le libell et la langue du qualificatif sont d sign s par les attributs code libell et langue L attribut ABR permet de pr ciser en plus l abr viation pouvant tre utilis e pour exprimer le qualificatif Et l attribut PT renseigne le statut du terme PT terme pr f r S synonyme Classe des Types de ressour
384. s dans notre dictionnaire Pour chaque variante de moms de trois mots du dictionnaire de termes faire d couper en_mots variante Pour chaque mot faire Si mot mot mvariant Alors Si mot fmi par un s Alors enlever_en_fm_de_mot s mot Simon St mot mi par un eaux Alors remplacer en fin de mot eaux eau mot Smon Si mot fmi par un aux Alors remplacer en fm de mot aux al mot Simon Si mot fmi par un al Alors remplacer en fm de mot al aux mot Smon Si mot fini par un ail Alors remplacer en fm de mot al aux mot Simon Si mot fmi par un 2ux Alors remplacer en fin de mot aux al mot FinSi FmSi FmSi FSi FimSi FmSi Simon enlever en fm de mot s mot FinSi variante ajouter mot variante Si variante dico_ termes Alors Afficher variante FmSi 2 raroa abo s infarctus abces acc s acces anticorps anus colapsus chez comas lupus psoriasis virus wt mus gris 3 a D foetus collapeus d c s herp s b12 b6 es da ks pps poids FIGURE 3 16 Algorithme de g n ration de variantes flexionnelles de terme Ces variantes potentielles ont t valid es par moi m me et notre expert M Korshia Sur 4 279 seulement 328 variantes ont t limin es soit 7 7 exemple lt ast rixis gt pour lt asterixi gt Le dictionnaire final TUV con
385. s inter terminologiques comprises dans lUMLS tel que les liens de transcodage SNOMED CIM10 SNOMED MeSH et MeSH CIM10 Classe des Relations cette classe pr cise les relations secondaires qui peuvent exister entre les relations elles m me Elle est inspir e de la table 83 Chapitre 3 Conception de l extracteur multi terminologique Section 3 5 Cr ation de libell s d indexation MRHIER Computable Hierarchies de l UMLS Classe des Relations intra terminologies cette classe renseigne toutes les relations qui peuvent exister entre deux termes d une m me terminologie Cette table a t inspir e par la table MRREL Related Concepts et MRHIER Computable Hierarchies de PUMLS Elle inclut les classes Hi rarchie Voir aussi Actions pharmacologiques du MeSH Assiociations m dicales et Hi rarchie de la CCAM Hi rarchie et R f rences de la SNOMED Hi rarchie Inclusions Dagstar et Exclusions de la CIM10 et enfin Rela tion_concept du TUV Elle inclut galement toutes les relations s mantiques comprises dans l UMLS pour une m me terminologie Classe des M mos cette classe renseigne toutes les notes et m mos rat tach s aux termes des diff rentes terminologies Elle inclut les classes M mo et R f rences de la CIM10 Notes et D finitions du MeSH et Notes de la CCAM Cette classe est inspir e par la table MRDEF de l UMIS Classe des Alternatives lexicales termes cette classe r unie toute
386. s les variations flexions et synonymes des termes inclus dans le dictionnaire g n ral Elle inclut la classe dictionnaire du MeSH 3 5 Cr ation de libell s d indexation Les diff rentes m thodes propos es par notre outil F MTI sont bas es sur les li bell s des termes de nos terminologies Ces libell s ne sont pas labor s l origine pour faciliter leur indexation Leur forme est le plus souvent dict e par une stucture logique capable de rendre compte du sens du terme et donc liminer toute ambigu t Elle peut aussi tre labor e afin de faciliter la recherche du terme dans la termino logie Tous les lib ll s doivent aussi rendre compte d une certaine homog n it Une tape nous a ainsi paru n cessaire pour veiller au bon appariement des termes et des phrases Cette tape consiste cr er pour chaque libell de chaque terminologie un libell d indexation qui facilite son indexation Il s agit d un travail long qui peut tre l g rement diff rent selon les terminolo gies Nous l avons r alis en guise d illustration sur la terminologie de la CIM10 il sera bien entendu n cessaire dans l avenir de le faire pour les autres terminologies Si l on consid re les termes de la CIM10 nous pouvons trouver des expressions comme lt sans pr cision sans autre indication gt ou class s ailleurs gt qui consti tuent certains termes mais ne seront jamais retrouv s dans une phrase Par exempl
387. s m dicamenteuses et la r duction des erreurs Seroussi04 La d cision m dicale n cessite la mise en application de connaissances sp cifiques la r solution d un cas clinique Degoulet98 Les informations peuvent tre des observations issues de l examen clinique des connaissances acad miques ou de l exp rience acquise dans l exercice m dical Ces informations sont stock es dans des bases de connaissances dont le but est de mod liser et stocker sous une forme exploi table par un ordinateur un ensemble de connaissances id es concepts ou donn es et de permettre leur consultation utilisation Ces informations peuvent tre stock es sous forme de termes provenant de terminologies sp cifiques avec leurs r seaux s mantiques Elles peuvent tre entr es la main ou issues de proc d s d extraction d information Dans notre cas les donn es proviennent de l indexation de documents Il est n cessaire de mettre jour de fa on r guli re la base de connaissance car le domaine de la m decine est un domaine qui volue en permanence par l mergence de nouveaux modes de prise en charge des maladies ou de d couverte de nouveaux traite ments La BIAM Banque d Information Automatis e sur les M dicaments commer 24 Chapitre 2 tat de l art Section 2 2 Fondements de la recherche d information et des bases de connaissances cialis s en France Th riaque base de m dicaments du Centre national Hospi
388. s plut t qu une grande quantit de ressources qui demanderaient l utilisateur 135 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es de passer du temps 4 faire le tri contrairement 4 Pubmed En terme d indexation cela se traduit par le choix de favoriser une meilleure pr cision plutot qu un bon rap pel c est pourquoi en ce basant sur cette valuation la lemmatisation devrait tre utilis e dans F MTT Malheureusement nous ne devons pas oublier les consid rations techniques La lemmatisation demande un temps d ex cution deux fois sup rieur celui de la d suffixation De plus l installation et l interrogation du S miographe complexifient le proc d En pratique le gain de pr cision obtenu avec la lemmati sation n est pas assez significatif pour justifier de l augmentation de la complexit technique de l algorithme L quipe CISMeF a donc d cid de garder la d suffixation comme m thode de normalisation de mot dans son environnment de production Qualit de l indexation L indexeur doit prendre en compte selon Lancaster Lancaster91 d une part la place que le document doit occuper dans la collection o il s inscrit et d autre part les centres d int r t des lecteurs potentiels Ces deux crit res font sans aucun doute appel au jugement de l indexeur et conduisent se poser la question de l objectivit de l indexation Une va
389. s pour des expressions similaires ambigu t et polys mie De plus le lan gage est structur et permet partir de concepts l mentaire de cr er des concepts plus complexes Pour permettre un outil d appr hender le langage naturel dans un but d indexa tion il faut tout d abord lui fournir l inventaire des termes du langage d indexation Il faut galement lui permettre d appr hender le sens de chaque l ment ainsi que la formation de termes complexes a partir d l ments l mentaires P Zweigenbaum Zweigenbaum99 appelle cela le mod le formel Ce mod le est form de l ensemble des termes du langage et des relations qui permettent de relier des concepts g n raux des concepts plus sp cifiques ou de relier des concepts complexes partir de concepts plus simples Il existe plusieurs mod les formels les principaux sont la terminologie et l ontologie 2 3 2 3 1 Terminologies Le mot lt terminologie gt signifie lt ensemble de termes gt Roche05 La structure et le contenu d une terminologie sont cr s en fonction de Vutilisation qui doit en tre faite Elle est donc g n ralement cr e pour une t che bien pr cise La SNOMED 3 5 C t 93 la CIM10 OMS93 la CCAM Rodrigues05 le TUV et le MeSH Douy re04 sont des terminologies Bronchite et asthme FIGURE 2 2 Exemple de terminologie en noir les relations de hi rarchie lient un terme g n ral un terme plus sp cifique
390. s rendus sont cod s en CIM10 et en CCAM dans une p riode plus ou moins courte apr s la sortie Ce codage r pondant un objectif budg taire est r alis en conformit avec les r gles m dico conomiques en vigueur voir section 2 4 3 1 Nous avons r cup r ces codages F MTI ne produit qu une indexation purement descriptive du document Nous avons donc en plus demand un m decin expert du codage d indexer manuellement de mani re descriptive 100 lettres de sortie tir es au hasard parmis les 794 50 prove nant de s jours effectu s en Cardiologie et 50 de s jours en Pneumologie Cet expert tait en aveugle quant l indexation m dico conomique pr alablement r alis e par les m decins et l indexation automatique produite par F MTI 4 2 2 3 Mesures d valuation La pr cision et le rappel ont t utilis s afin de mesurer les performances du F MTI La proposition d indexation produite automatiquement par l outil a t compar e celle effectu e manuellement et de mani re m dico conomique par les m decins pour les 794 comptes rendus d hospitalisation De plus elle a t compar e l indexation manuelle descriptive produite par l expert pour 100 comptes rendus d hospitalisation De plus nous avons identifi diff rents niveaux d indexation du moins pr cis au plus pr cis en prenant en compte le nombre de digit des codes CIM10 Pour un code CIM10 chaque digit suppl mentaire ajoute u
391. scussion Indexation descriptive et m dico conomique L indexation propos e par F MTI devrait tre plus proche d une indexation descriptive que d une indexation m dico conomique F measure de 5 8 vs 4 9 puisqu il extrait l ensemble des termes qu il peut trouver dans un compte rendu sans appliquer les r gles de codage du PMSI Cependant le meilleur rappel tant obtenu par rapport une indexation m dico conomique 38 0 vs 32 9 il est difficile de trancher Dans son activit quotidienne notre expert code galement ses comptes rendus de mani re m dico conomique aussi tant habitu utiliser certains codes cela a pu avoir un impact sur son indexation descriptive Analyse de l indexation produite par F MTI Les r sultats mettent en vidence une pr cision tr s faible de l ordre de 3 Ceci est d au grand nombre de codes propos s par F MTI 26 codes en moyenne par compte rendu compar au nombre de codes assign s par le m decin 3 codes en moyenne par compte rendu De plus le rappel montre que le syst me n est capable d extraire qu environ un tiers des codes de r f rence L analyse des erreurs d indexation produite par F MTT montre que F MTI indexe l ensemble des termes contenus dans les comptes rendus alors que le m decin ou l expert ne code que ce qu il juge important ce qui entra ne une 123 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evalu
392. semble des mots r pertori s dans la r f rence qui ont t d suffix s grace aux trois algorithmes Pour chaque algorithme les mots ayant le m me radical seront rassembl s dans la m me famille 117 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es L valuation a consist mesurer la pr cision et le rappel en comparant les fa milles de mots cr es pour chaque algorithme par rapport aux familles de r f rence voir figure 4 4 Sr ne ROS leturesr ite a 4 Mots signifiants du TUV CISMeF Lucene st mes diff rents i ant c dent anteceden ant c dent Carry anteced i pour une ou ambulatoire ambulatoir ambulatoir ambulato os 100 75 adolescent adolescente adolescentes adolescents adolescence adolescences adolescent adolescente adolescentes adolescents adolescents gt ado adolescence adolescences adolescent adolescente adolescentes adolescents ados Pr cision NbMotsEnCommun NbDeMotsDeLaFamillePourLeSteme Rappel NbMotsEnCommun NbDeMotsDeLaFamillePourLaR f rence FIGURE 4 4 Protocole d valution des trois m thode de d suffixation 4 2 1 3 R sultats de la comparaison des trois algorithmes de d suffixation Algoritme Rare Algorithme CISMeF 70 9 694 70 4 Algorithme de Carry 59 3 76 3 66 7 Frenchstemmer de Lucene 814 74 7 77 9 FIGURE 4 5 R sultats de l valuation des tr
393. sier d pos lors de la demande d AMM notamment sur les indications th rapeutiques contre indications modalit s d utilisation et les effets ind sirables Ces informations sont destin es aux professionnels de Sant m decins pharma ciens et diffus es par l Agence Fran aise de S curit Sanitaire des Produits de Sant AFSSAPS Le RCP comprend plusieurs rubriques distinctes Forme et pr sentation pr sente la forme gal nique de la sp cialit et ses pr sentations Composition indique les noms et les quantit s des composants constituant le m dicament Donn es Cliniques 25 La forme gal nique est la forme d administration du principe actif au patient exemple g lule 40 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation Indications th rapeutiques maladie s pour le s quelle s le m dicament peut tre utilis Posologie et mode d administration doses auxquelles le m dicament doit tre administr Contre indications situation s dans le s quelle s la prise du m dicament est dangereuse Mises en garde et pr cautions d emploi situation s consid rer lors de la prescription du m dicament Interactions avec d autres m dicaments ou substances Grossesse et allaitement risques ventuels et comportement adopter en cas de prescription au cours de la grossesse ou en cas d
394. sieurs axes a pour but additionnel de permettre de composer un concept complexe en combinant des concepts l mentaires pris dans ces axes exemple inflammation SAI gt axe M lt aigu gt axe G Nous nous int ressons ici la nomenclature SNOMED voir section 2 4 3 4 pour le d tail de cette nomenclature 2 3 2 3 2 Ontologie Une ontologie est un vocabulaire contr l organis et formalis Zweigenbaum95 Bachimont00 Elle mod lise les concepts relations et contraintes pour un domaine donn La relation hi rarchique y est unique relation lt est un gt De plus il existe des relations s mantiques entre les termes pouvant tre associ s des contraintes voir figure 2 3 En ce sens la terminologie TUV peut s approcher de la d finition d une ontologie voir section 2 4 2 3 pour le d tail de cette terminologie io Pierre pe mass lt S a un Y io os UaLienD F ratemite Rees e ho sF curPere estMarieA Jacques Marie habiteA 7 E 2 aPourPere lt PourPere biteA unknown ourPere NES as L I N Se tabited far ee y ee a Ulm _ eTrouveEa fio Vo seTrouveEn France Allemagne FIGURE 2 3 Exemple d une ontologie Le format des ontologies est le RDFS Resource Description Framework Schema et le OWL Web Ontology Langage Des exemples d ontologies sont les ontolo gies GALEN General Architecture for Langage and Nomencl
395. sion 2007 le MeSH comporte 24 357 descripteurs 83 qualificatifs et 164 331 concepts chimiques suppl mentaires deux codes un identifiant unique et un code refl tant la place du terme dans l arborescence exemple voir figure 2 5 lt amyloidose gt D000686 et C18 452 090 21 Les sites web ou documents num riques sont des documents particuliers que nous appelons ressources 22 Cette terminologie peut tre consult e grace au MeSH Browser accessible via http www nlm nih gov mesh MBrowser htm1 de la NLM pour le MeSH am ricain ou sur le site de INSERM accessible via http ist inserm fr basismesh meshv07 html pour le MeSH bilingue 36 Chapitre 2 Etat de l art Section 2 4 taches d indexation Les bases de notre sujet pr sentation des A Anatomie B Organismes C Maladies D Produits chimiques et m dicaments E Techniques analytiques diagnostiques et th rapeutiques quipement F Psychiatrie et psychologie G Sciences physiques I Anthropologie enseignement sociologies et ph nom nes J Technologie aliments et boissons E Arts et sciences humaines L Sciences de l information M Individus C maladies C04 tumeurs C18 m tabolisme et nutrition maladies C18 452 m tabolisme maladies C18 452 090 amylo dose C18 452 394 troubles du m tabolisme glucidique C18 452 394 750 diab te C18 452 394 750 124 diab te de type 1 C18 452 394 750 124 960 Wolfram syndrome C18 452 394 750
396. sion est du m me ordre que celle obtenue par F MTI par contre le rappel semble meilleur Pour l indexation de descripteurs majeurs il obtient une pr cision de 81 et un rappel de 11 donc une plus faible pr cision et un bien meilleur rap pel que pour F MTT Une comparaison entre les outils MTI et F MTI sur un corpus parall le bilingue devra tre r alis e afin de confirmer ces r sultats 8 L outil de lemmatisation que nous avons utilis 136 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es MAIF N v ol05a obtient une pr cision de 6 2 et un rappel de 35 3 pour lin dexation de ressources CISMeF La pr cision semble plus faible et le rappel meilleur ceci devra tre confirm par une comparaison sur un corpus CISMeF identique 4 2 5 valuation de l extraction de termes TUV pour les RCP 4 2 5 1 M thode d valuation Le thesaurus TUV sera bient t finalis et mis en place pour l indexation des RCP au sein du Vidal Jusqu pr sent les RCP ont t index s l aide des quatre th sauri indications contre indications pr cautions d emploi et effets secondaires Le but ici est de simuler ce prochain mode d indexation et d valuer les performances que pourrait apporter l outil F MTI Nous avons utilis pour l extraction la m thode du dictionnaire de termes 4 2 5 2 Le corpus d valuation Nous avons extrait un corpus de 5 191 RCP index
397. sont assign s par un ast risque Les ressources moins urgentes priorit basse sont index es de mani re super vis e Les indexeurs sont charg s d indexer manuellement la ressource tout en pou vant s inspirer du r sultat de l indexation automatique effectu e sur le titre de la ressource L indexation purement automatique sur le titre est r serv e aux ressources dont l utilit et la qualit ne n cessite pas une indexation pr cise Ces ressources sont de priorit faible ou leur th me est d j suffisamment pr sent dans CISMeF L indexa tion automatique sur le titre est r alis e l aide de l algorithme du sac de mots voir chapitre 3 2 4 2 Indexation de l information pour les m dicaments par la soci t Vidal 2 4 2 1 Le RCP La d finition d un m dicament est pr cis e en France par l article L5111 1 du Code de la Sant Publique Un m dicament est une substance ou composition pr sent e comme poss dant des propri t s curatives ou pr ventives l gard des maladies humaines ou animales gt Le m dicament est compos d un ou plusieurs ex cipients substances inertes servant la formulation de la forme gal nique comme l eau ou le saccharose Une sp cialit est la base du m dicament elle peut tre com mercialis e sous diff rentes formes et sous plusieurs noms de marque Le R sum des caract ristiques du Produit pour une sp cialit synth tise les infor mations du dos
398. t la date L indexeur d finit alors le type de ressource pour cela il choisit 1 n termes parmi la liste des types de ressources de la terminologie CISMeF Les types de ressource d crivant plus particuli rement la ressource seront marqu s d un ast risque qui signifie que le type de ressource est lt majeur gt Ensuite afin de d finir le contenu d une ressource un r sum succinct est labor par les indexeurs Enfin l indexeur d crit le contenu de la ressource l aide de mots cl s de la terminologie CISMeF Les indexeurs CISMeF privil gient une indexation au plus pr cis ce qui quivaut dans la terminologie MeSH ne pas indexer ensemble un p re et un fils sauf ex ception mais seulement le plus pr cis le fils Si la ressource comporte les notions d lt asthme gt et d lt asthme aigu gt c est asthme aigu gt qui sera index Par contre si le document num re tous les types d asthme alors lt asthme gt sera utilis pour l indexation le p re Un poids lt majeur gt peut tre appos certains mots cl s en y accolant un ast risque Les mots cl s majeurs sont ceux qui d crivent les informations les plus repr sentatives du document L indexeur utilise le serveur de terminologie CISMeF 4 depuis 2003 pour conna tre les termes appropri s utiliser pour indexer une ressource Celui ci permet d inter roger la terminologie gr ce des mots significatifs tap s par l utilisateur
399. t par les indexeurs CISMeF sur le corpus lt diab te gt de CISMeF com prenant 57 ressources MAIF a montr une pr cision de 6 2 et un rappel de 35 3 en prenant en compte les 50 termes MeSH les plus pertinents pour chaque ressource L application du seuil permet d obtenir une pr cision de 24 2 et un rappel de 7 4 Rk NOMINDEX HON MAIF TAL MeSHMapp OT esttsappee A reae R ma ds Pa aa sen 7 42 Peer r 12 65 9 20 31 93 26 41 30 72 22 05 15 24 10 57 10 12 53 22 55 20 61 36 96 21 23 37 26 11 83 18 20 50 6 20 51 44 7 76 57 81 7 04 48 50 5 56 39 39 E 9 70 11 42 23 19 80 29 93 29 11 12 22 5 13 T 6 6 T 4 6 T 12 T 3 09 FIGURE 2 25 Pr cision et rappel des syst mes francophones aux rangs fixes 1 4 7 10 et au seuil adaptatif MAIF a t compar d autres syst me d indexation MeSH Nomindex Pouliquen02 HONMeSHMapper Gaudinat02 MeSHMapp Ruch03 et MTI voir section suivante voir r sultats 2 25 Le syst me MAIF a t utilis pour l indexation en CIM10 de comptes rendus m dicaux Pereira06 Pour ce faire il a t coupl une table de transcodage MeSH CIM10 extraite de l UMLS afin de transcrire en CIM10 les termes MeSH ex traits par MAIF partir de comptes rendus m dicaux Le syst me a montr une pr cision de 15 et un rappel de 28 compar a une indexation manuelle de 100 comptes rendus m dicaux effectu e par des m decins L in
400. talier d Information sur le M dicament la BCB Banque Claude Bernard et la base Vidal sont les bases de connaissances les plus connues et les plus utilis es dans le domaine du m dicament en France Une telle base peut tre accompagn e de r gles dans ce cas on parle de base de r gles de faits ou d autres repr sentations Des r gles SI ALORS peuvent tre utilis es ainsi que des arbres de d cision qui repr sentent l ensemble des strat gies th rapeutiques ou diagnostiques du domaine Un exemple de r gle serait ne pas prescrire la sp cialit lt Sectral gt en cas d asthme aigu gt exemple repris de la section 132 2 2 4 Besoins usages et acc s L information recherch e par les sp cialistes et le grand public peut tre tr s diff rente dans le contenu les supports et la formulation Chartron92 Jacquemart05 Nous distinguons trois groupes de publics pour la recherche d information m dicale le grand public les tudiants et les professionnels de sant Les recherches du grand public dans le domaine m dical sont dirig es par la cu riosit ou la r flexion autour d un probl me personnel ou atteignant un proche Les patients fran ais s orientent de plus en plus vers l Internet pour rechercher des infor mations concernant leur pathologie mais aussi leurs droits administratifs et sociaux Ces informations les aident avant ou plus souvent apr s une consultation m dicale L information recherch e
401. tants ou ayant exist s Thesaurus Un thesaurus est un vocabulaire contr l et organis Lefevre00 Trois types de relations entre les termes sont consid r s relation hi rarchique sp cialisation g n ralisation tout partie relation d quivalence synonymes relation d association pour les sujets connexes Il existe des normes pour l laboration des thesaurus monolingues Norme ISO 2788 1986 multilingues Norme ISO 5964 1985 et de multiples formats SKOS Sp cification en langage RDF d velopp par le W3C pour la publication et l utili sation des th saurus dans le cadre du Web s mantique RDF La terminologie MeSH laquelle nous nous int ressons est un thesaurus voir section 2 4 1 1 pour le d tail de ce thesaurus 30 Chapitre 2 tat de l art Section 2 3 D finition de l indexation et du codage Nomenclature Une nomenclature est une terminologie qui vise recenser tous les concepts d un domaine exhaustivit Pour une description pr cise et fid le de comptes rendus m dicaux les classifications trop orient es vers un objectif pr cis se r v lent peu adapt es par rapport une nomenclature qui fournit un ventail plus vari et plus pr cis de concepts m dicaux Une nomenclature est un vocabulaire contr l et organis o les termes sont r partis selon plusieurs axes ce qui est diff rent d une classification g n ralement monoaxiale La r partition des concepts en plu
402. tent l acc s des informations pr cises Berard Dugourd89 nous pourrions les am liorer en ajoutant des l ments de contexte tel qu tudi s ici Ces l ments de contexte permettent en outre de d sambiguiser et de pr ciser la question pos e Nous pourrions aussi imaginer un profil r dig en texte libre par l utilisateur qui pourrait lui permettre de se d crire L outil F MTT serait alors utilis pour extraire les termes MeSH inclus et partir de r gles pour tablir une strat gie de recherche d information m dicale contextuelle 33 Cross Langage Information Retrieval 34 Access to the right information at the right time for the right reason 184 Chapitre 8 Conclusion g n rale Nous souhaitons dans ce chapitre r aliser le bilan de cette th se Notre probl matique initiale tait d aider les indexeurs dans leurs taches d in dexation manuelle lindexation des ressources Web l aide du MeSH dans l quipe CISMeF l indexation des RCP l aide du TUV dans l quipe donn es th rapeutiques de la soci t Vidal l indexation des dossiers m dicaux l aide de la CIM10 de la CCAM et de la SNOMED 3 5 Pour ce faire nous avons d velopp un outil d indexation automatique F MTI Cet outil est capable de r aliser l indexation de n importe quel document l aide d une ou plusieurs terminologies et permet une indexation pr cise des documents consid r s dans nos d
403. terme Tous les codes TUV assign s automatiquement aux quatre rubriques sont compar s aux codes TUV assign s manuellement un RCP avec l un des quatre types en ne tenant pas compte du fait qu ils appartiennent ou non au m me type 4 2 5 4 R sultats de l extraction de termes TUV pour les RCP Contre indications Effets secondaires Pr cautions d emploi 28 4 49 3 Total pour les quatre 52 9 46 2 rubriques Total en ne tenant pas 57 6 43 4 compte des rubriques FIGURE 4 17 R sultats de l valuation de l extraction de termes TUV partir d un corpus de RCP Les performances du F MTI montrent une pr cision de 57 6 et un rappel de 43 4 compar l indexation manuelle voir figure 4 17 Lorsque l on consid re les performances selon les rubriques les r sultats sont tr s diff rents selon le type de terme consid r Les meilleures performances sont obtenues pour les effets secondaires avec une pr cision de 77 et un rappel de 59 4 138 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es L indexation automatique de F MTTI pour les indications est limit e avec un rap pel de 21 7 celle pour les pr cautions d emploi est tr s bruit e avec une pr cision de 28 4 4 2 5 5 Discussion Performances g n rales Les performances obtenues sont satisfaisantes Elles sont largement sup rieures celles obtenues par l indexation des autres
404. terminologies voir sections pr c dentes Ceci peut s expliquer par le fait que contrairement aux autres terminologies les thesaurus Vidal ont t cr s partir du contenu des RCP Les libell s des termes sont donc tout fait en accord avec ce qui peut tre trouv dans les RCP L indexation en est largement facilit e Performances diff rentes selon les rubriques Les r sultats sont diff rents selon les types consid r es En effet les termes sont plus ou moins longs et complexes selon les types Ainsi les termes de type lt INDIC gt et lt CI gt sont plus complexes que les autres Ils sont donc plus difficiles extraire d o un rappel plus faible Toutes les r gles d indexation voir section 2 4 2 2 n ont pas pu tre int gr es Certaines rubriques n ont pas t prises en compte lt Composition gt et Posologie et mode d administration gt et lt interactions m dicamenteuses gt qui peuvent contenir des termes lt PE gt De plus nous avons consid r que chaque rubrique ne pouvait contenir que des termes d un seul type alors que ce n est pas vrai pour toutes les rubriques Grossesse et Allaitement termes index s avec le type lt CI gt ou lt PE gt selon les cas Pr caution d emploi et Mise en garde contient parfois des termes lt CI gt Analyse des erreurs d indexation L analyse des r sultats montre que la majorit des erreurs est due a l insuffisance des variantes pr
405. termnologique incluant la d suffixation produit une pr cision de 30 5 et un rappel de 38 1 4 2 4 4 5 R sultats de l indexation qualitative L analyse secondaire r alis e sur 1 000 ressources par un indexeur CISMeF a montr que 4 5 des descripteurs automatiquement assign s et consid r s comme faux dans la premi re valuation ont t consid r s comme ayant un lt bon impact 79 6 un lt impact n gatif gt et 15 9 un lt impact mineur 4 2 4 5 Discussion Lemmatisation ou d suffixation Les r sultats ont montr que les deux al gorithmes de lemmatisation et de d suffixation produisent des r sultats assez proches Cependant la lemmatisation donne une meilleure pr cision mais un rappel plus faible du fait de la sous analyse de variantes de termes Le choix d pend donc de la t che effectuer une t che qui privil gie un minimum de bruit ou un silence minimum La lemmatisation est meilleure en terme de rappel et de pr cision pour la mono terminologie Ceci est inhabituel mais possible dans certains cas Par exemple pour le titre lt Rapport concernant le symposium sur le syndrome d alcoolisme foetal et les effets de l alcool sur le foetus gt F MTI extrait les liens syndrome d alcoolisme foe tal gt et lt alcoolisme gt et lt alcools gt Dans le processus nous filtrons les termes dont le sac de mots est inclus dans un autre sac de mots d un autre terme avec la lemmati sation lt alcoolisme gt
406. th se a ouvert une v ritable r volution strat gique au sein de l quipe CIS MeF avec le passage d une strat gie mono terminologique une strat gie multi terminologique L organisation des projets passent de la figure 1 4 6 1 D s pr sent trois autres th ses dans la continuit de celle ci ont d but pour explorer cette nouvelle voie de recherche Travaux sur l interop rabilit s mantique inter et intra terminologies T Me rabti Ces travaux visent d velopper des m thodes pour am liorer et tendre les transcodages existants Ces travaux ont pour l instant permis de transposer 2 Gr ce A N v ol doctorante de l quipe CISMeF et postdoctorante depuis 2 ans et demi au Lister Hill 3 Outil d extraction de termes inclus dans MTI 165 Chapitre 6 Discussion Section 6 5 Perspectives Terminologie Rogozan MONOTERMINOLOGIE CISMeF 1995 2005 Recherche d Information a Indexation Implicite ey le Textuelle TAL text mining MeSH Automatique ontologies M tatermes TAL KNN Types de ressource Strat gies de recherche M tadonn es Cat gorisation A Neveol L Soualmia B Thirion C Letord D autres Terminologies M dicales MULTITERMINOLOGIES G Kerdelhu J Piot et Dictionnaires 2005 LERTIM INSA Mondeca UMLF VUMeF VODeL PIH M Joubert JF Gehanno pes M Joubert CIFRE Vidal Multi Joube i m term
407. thodology Artif Intell Med 1998 14 201 14 Lu W Lin S Chan Y Chen K Semi automatic construction of the Chinese English MeSH using web based term translation method AMIA Annu Symp Proc 2005 475 9 Luhn H The automatic creation of literature abstracts IBM Journal of research and development 1958 2 159 165 Lundsgaarde H Fisher P Steele D Human problems in com puterized medicine University of Kansas Publications in An thropology 1981 12 Massari P Fuss J Dossier patient informatis du CHU de Rouen migration des anciennes applications vers C PAGE Dossier Patient Gestions hospitali res 2000 395 316 320 Massari P Pereira S Thirion B Derville A Darmoni S Use Of Super Concepts To Customize Electronic Medical Records Data Display Stud Health Technol Inform 2008 136 845 850 Maviglia S Yoon C Bates D Kuperman G KnowledgeLink Impact of context sensitive information retrieval on clinician s information needs J Am Med Inf Assoc 2006 13 67 73 Mayer M Darmoni S Fiene M K hler C Roth Berghofer T Eysenbach G MedCIRCLE collaboration for Internet rating certification labelling and evaluation of health information on the World Wide Web Stud Health Technol Inform 2003 95 667 672 Merabti T Pereira S Lecrog T Joubert M Darmoni S In heritance of SNOMED CT Relations between concepts to two Health Terminologies SNOMED International and ICD 10 Proc
408. ti tuant au corpus indexer en une seule fois Il faut ensuite pouvoir d terminer pour chaque phrase si elle contient tous les constituants requis pour un ou des terme s des terminologies Afin de r aliser cela un poids est ajout chaque constituant afin de d finir sa couvrance en mati re de lemmes pour le terme associ Ici le constituant lt angor gt a un poids de 2 puisqu il couvre les lemmes lt angine gt et lt poitrine gt Les autres ont un poids de 1 Dans notre base de donn es multi terminologique est r pertori pour chaque terme son nombre de lemmes Ainsi il est indiqu que le terme angine de poi trine s v re gt a un poids de 3 Pour indexer une phrase avec le terme lt angine de poitrine s v re il faut avoir une couvrance parfaite de l ensemble des lemmes du terme donc atteindre un poids de 3 pour ce terme Prenons un exemple Indexation de la phrase Le patient est atteint d un syndrome s v re le syn drome de Down accompagn d asthme gt Apr s application du dictionnaire de terme gr ce l outil NooJ il a t re trouv les constituants suivants syndrome syndrome de Down TUV PATHO ms syndrome syndrome de Wolfram TUV PATHO ms syndrome syndrome de Down TUV PATHO ms syndrome syndrome de Wolfram TUV PATHO ms 106 Chapitre 3 Conception de l extracteur multi terminologique Section 3 9 Prise en compte des contextes Down syndrome de Down TUV PATHO np
409. tient 40 266 variantes pour 11 980 termes 104 Chapitre 3 Conception de l extracteur multi terminologique Section 3 8 M thodes mises au point 3 8 2 8 Indexation par le dictionnaire de termes L indexation d un document par le dictionnaire de termes consiste appliquer gr ce au logiciel NooJ voir section 3 8 2 3 le dictionnaire de termes au corpus indexer en une seule fois Le fichier obtenu contient pour chaque variante retrouv e dans le corpus le nom du fichier partir duquel elle a t extraite sa position dans le document les positions des caract res de d but et de fin son entr e dans le dictionnaire Variante Libell Du Terme Code TUV Informations Divers Puis le transducteur pour le d coupage en phrases est appliqu De la m me fa on nous obtenons un fichier avec les phrases identifi es pour chaque document et leurs positions Ces deux fichiers permettent de g n rer une proposition d indexation pour chaque document avec pour chaque phrase les libell s et codes des termes TUV associ s 3 8 2 9 Points forts et points faibles de la m thode du dictionnaire de termes La m thode du dictionnaire de termes est plus rapide et plus fiable que la pr c dente En effet l application d un dictionnaire dans NooJ est ind pendante de la taille du dictionnaire Le temps d application est donc quasi instantan pour un document Ce temps varie selon le nombre de document
410. tiles l indexation Nous avons identifi les rubriques d int r t pour les comptes rendus hospitaliers et les RCP Les comptes rendus hospitalier sont form s de plusieurs rubriques voir sec tion 2 4 3 1 ils peuvent tre diff rentes selon les secteurs d hospitalisation au sein d un m me h pital et changer au cours des ann es Nous avons identifi ces rubriques pour les comptes rendus du secteur Cardiologie et Pneumologie Ces secteurs ont t retenus car nous disposions d un expert dans ces deux domaines Ces rubriques peuvent aussi tres exprim es de fa on diff rentes se lon les individus nous avons identifi toutes les d clinaisons rencontr es Les rubriques identifi es sont les suivantes Secteur d hospitalisation Motif d hos pitalisation Ant c dents m dicaux Examens et Histoire de la maladie Exa mens cliniques Electrocardiogramme Radio Thoracique Biologie Evolution Conclusion Traitement Conduite tenir Les rubriques d int r t pour l indexation d un RCP sont voir section 2 4 2 1 Indication Contre indication Mise en garde et pr cautions d emploi Grossesse et allaitement Effets secondaires et Surdosage Pour les sites Web et les autres documents les rubriques ne peuvent tre connues l avance Une partie du programme de F MTT permet de rentrer de nouvelles rubriques afin qu elles soient identifi es il suffit d ajouter les noms De plus un travail avait
411. tion d outils d indexation automa tique et semi automatique Plusieurs crit res d valuation peuvent tre envisag s voir figure 2 18 La consistance de l indexation vise appr cier la concordance entre des indexa tions propos es pour un m me document par deux indexeurs ou deux m thodes d indexation diff rentes Rolling80 Id alement deux indexeurs diff rents devraient produire la m me indexation pour un m me document consistance inter indexeur 57 Chapitre 2 Etat de l art Section 2 5 Aide l indexation et un meme indexeur devrait produire la meme indexation pour un m me document deux moments donn s consistance intra indexeur Le Den A M C Termes d indexation E bl Termes propos s par 2 P ane d indexation BENGE j F INS d indexation propos s par 1 ETE j a r f rence j VN C Taux de recouvrement 100 C ou 100C M C N C 100 2C Mesure de Hooper ge Mesure de Rolling _ M N C M N 2C C ee Pr cision Bruit 1 Pr cision Puret M N A G Rappel FE Silence 1 Rappel 7 1 Pr cision Rappel F Measure ik 5 i i b Pr cision Rappel FIGURE 2 18 valuation de l indexation produite les mesures de consistances Plusieurs mesures de consistance existent la mesure de Hooper value la proportion de termes propos s par deux in dexeurs la fois sur l ensemble des
412. tral gt contre indiqu e pour les asthmes s v res un malade atteint d asthme aigu grave ayant pour code J46 dans la CIM10 Afin d aider le m decin dans cette d marche un logiciel d aide au codage permet de naviguer dans les terminologies et de rechercher les codes correspondants aux maladies 31 Une sp cialit est la base du m dicament elle peut tre commercialis e sous diff rentes formes et sous plusieurs noms de marque 32 La classification Anatomique Th rapeutique et Chimique 33 La classification de l European Pharmaceutical Marketing Research Association 34 Une monographie est labor e par Vidal et regroupe l ensemble des informations du R sum des caract ristiques du produit RCP des textes publi s au Journal Officiel et le cas ch ant d autres documents officiels pour une sp cialit 35 DRC Dictionnaire des R sultats de Consultation publi par la SFMG Soci t Frangaise de M decine G n rale http www sfmg org 12 Chapitre 1 Contexte Section 1 3 Contexte scientifique Prescription 2 ode Libell Labo titu G n rique Dop Type 63040606 ADVIL 400 mg cp enr Wyeth Sant Familiale R Q 67292476 TERALITHE LP 400 mg cp s c LP Aventis TERALITHE LP 400 mg cp s c LP Monographie Vidal Analyse 4S gt Remplacer en cas d IAM P TERALITHE LP 400 mg cp s c LP Lithium ADVIL 400 mg cp enr Anti inflammatoires non st roidiens Niveau de
413. tre A BIBLIOGRAPHIE Section A 5 BIBLIOGRAPHIE Kolher05 Lamberts87 Lamy06 Lancaster9 1 Lef vre00 Letord Levenshtein66al Levenshtein66b Lewandowski08 Li07 Lin98 Lindberg90 Liu06 Loisel07 Lovins68 Kolher F Toussaint E La T2A les p les et la contractualisa tion interne Quels mod les en hospitalisation de court s jour Journ es Francophones d Informatique m dicale 2005 Lamberts H Wood M International Classification of Primary Care ICPC Oxford University Press 1987 Lamy J Conception et valuation de m thodes de visualisa tion des connaissances m dicales mise au point d un langage graphique et application aux connaissances sur le m dicament Ph D thesis Universit Paris 6 2006 Lancaster F Indexing and abstracting in theory and practice University of Illinois Champaign IL 1991 Lef vre P La recherche d information du texte int gral au th saurus Hermes Science sept 2000 Letord C Sakji S Pereira S Dahamna B Kergourlay I Dar moni S Un portail d information sur le m dicament en Europe Drug Information Portail in Europe Levenshtein V Binary codes capable of correcting deletions insertions and reversals Cybernetics and Control Theory 1966 10 707 710 Levenshtein V I Binary codes capable of correcting deletions insertions and reversals B Sov Phys Dokl 1966 6 707 710 Lewandowski E De nouve
414. tribut propri t s renseigne les propri t s des termes Plusieurs valeurs s par es par des lt gt peuvent tre indiqu es Les propri t s M male F female S sequela P post S second ont t cr es pour la CIM10 Pour la CCAM sont renseign s ici les codes influant sur la tarification code activit code_ext_ doc code phase codes modificateurs code_assoc remboursement supp_charge loc_dents Pour le MeSH nous avons renseign ici les codes arborescences des termes MeSH s par s par des lt gt Il n existe pas de propri t s pour les termes de la SNOMED l attribut sera donc lt NULL gt Enfin l attribut codable renseigne si le code peut tre index ou non Dans toutes les terminologies on retrouve des termes pouvant tre index s et d autres non Modifications apport es Pour la CCAM la valeur N gt pour lt non gt sera attribu e aux termes de chapitre ou de section lt O gt pour les autres Pour la SNOMED la valeur N gt sera attribu e aux termes de chapitre ou de section lt O gt pour les autres Enfin pour le MeSH la valeur N gt sera attribu e aux qualificatifs seuls ils ne peuvent pas tre cod s O gt pour les autres Classe des Relations inter terminologies But Cette classe renseigne toutes les relations qui peuvent exister entre deux termes de terminologies diff rentes Cette table a t inspir e par la table MRREL Related Concepts de PUMLS Elle inclut
415. ts d un terme Nous avons ainsi extrait les mots clefs MeSH contenus dans chaque libell CCAM Par exemple pour le code BACA008 lt Suture de plaie du sour cil gt expert a assign les termes MeSH lt sourcil gt anatomie et lt plaies et l sions traumatiques gt diagnostic ces mots clefs MeSH sont reli s aux m tatermes par des liens s mantiques voir section 2 4 1 2 Nous avons ainsi pu d terminer les m tatermes associ s a chaque liste de termes MeSH pour chaque libell CCAM Pour un terme CCAM les m tatermes peuvent tre nombreux 15 alors que l expert a associ en moyenne 1 18 m tatermes par libell CCAM Plusieurs mots clefs MeSH d une m me liste peuvent tre associ s au m me m taterme nous avons d cid arbitrairement de calculer la fr quence pour chaque m taterme obtenu et de ne prendre que les deux m tatermes les plus fr quents pour chaque liste de m tatermes De plus nous avons pris en compte les associations de m tatermes exemple chirurgie neurologie neurochirurgie dans une deuxieme tude nous avons utilis les mots clefs MeSH associ s ma nuellement aux libell s CCAM par l expert pour retrouver les m tatermes reli s la m me tude a t r alis e pour l assignation automatique de m tatermes pour la CIM10 Voir Annexes De la m me fa on nous n avons pris en compte que les deux m tatermes les plus fr quents et les associations de m tatermes 5 8 2 Evaluat
416. tur es allant d une ent te suivie de quelques rubriques remplir exemple Motif d hospitalisation Ant c dents Examens cliniques Traitement de sortie Conclusion un formulaire pr tabli o il suffit de cocher des cases Le contenu est laiss aux bons soins du r dacteur il n y a pas de r gles pr cises ni de v rification a post riori Il peut tre r dig l aide d un diteur de texte pour les plus simples ou d une interface d di e pour les formulaires Apr s chaque s jour accompagn du compte rendu d hospitalisation le m decin doit produire le r sum de sortie standardis RSS Il peut tre r alis partir du compte rendu d hospitalisation ou de mani re ind pendante Il est compos d autant de r sum s d unit m dicale RUM que d unit s m dicales fr quent es par le patient 31 Un syst me d information repr sente l ensemble des l ments participant la gestion au stockage au traitement au transport et la diffusion de l information au sein d une organisation A5 Chapitre 2 tat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation Ent te Rouen le XX XX XXXX COMPTE RENDU D HOSPITALISATION Mr XXX N le le XX XX XXXX N dossier XXX Date d entr e XXX Date de sortie XXX M decin Traitent XXX Motif d hospitalisation Douleurs thoraciques ANTECEDENTS ET HISTOIRE DE LA MALADIE L gionellose
417. u F MTI Section 5 7 Optimisation de la prescription informatis e PSIP dures in medication d but en 2008 a pour objectif de mieux recenser et connaitre les effets ind sirables li s aux m dicaments dans le contexte hospitalier Le projet propose de d velopper des m thodes innovantes destin es contextualiser l informa tion et les alertes dans un nouveau syst me d aide la pr scription Le syst me d information hospitalier pr sente des fonctionnalit s permettant de g rer le circuit du m dicament Le circuit du m dicament est un des processus de soins les plus transversaux et structurants dans les tablissements de sant Chaque tape du circuit prescription dispensation administration est source d erreurs potentielles pouvant mettre en jeu la s curit des patients Ces fonctionalit s sont reli es au CPOE Computerised Provider Order Entry Ce syst me int gre des fonc tions d aide la d cision suggestions de dosage rappels automatiques changements de doses par exemple v rifie les interactions m dicamenteuses et les allergies com munication entre tous les acteurs du circuit partir des donn es extraites des CPOE le projet va tenter de d terminer par des outils de data mining les situations risques pour le patient ceci sous forme de r gles voir figure 5 7 Crit res D c s passage aux SI s jours longs Items Diagnostics ICD SNOMED Actes CCAM M
418. u fur et mesure pourra voluer et donner une meilleure indexation Avant toute indexation et afin de maintenir une homog n it par famille il faut conna tre l indexation des autres sp cialit s de la m me classe th rapeutique et quelles sont les sp cialit s index es par les indications contre indications du m me groupe voir section 2 4 2 2 La m thode statistique k PPV k Plus Proches Voisins utilis e par A N v ol dans ses travaux N v ol05a a montr que l on pouvait utiliser l indexation de documents proches afin de compl ter une indexation automatique Cette m thode d j impl ment e dans MAIF sera int gr e dans F MTI Les documents proches peuvent tre un rectificatif ou une reprise complete d un RCP d une sp cialit pr c demment trait e Ces documents ont donc des portions de textes communs Le d coupage en phrase de F MTT pourrait permettre d identifier les documents partageant un ensemble de phrases communes et ainsi de proposer automatiquement des documents proches Les travaux de T Merabti qui permettent de classer les documents proches par une m thode mixte statistique et s mantique pourront tre aussi r utilis s Merabti08b L int gration op rationnelle de F MTI sera finalis e la suite de cette th se en partie par mes soins 143 Chapitre 5 Applications du F MTI Section 5 3 Indexation automatique de dossiers patients 5 2 3 Evaluation de apport de BIBLIS et de F M
419. u r seau de faciliter l exercice professionnel quotidien par la fourniture d outils de re cherche d information rapides permettant de rechercher selon plusieurs crit res nature des donn es cliniques biologiques imagerie ordre chronologique nom ge lieu de domiciliation type d affection l am lioration de la prise en charge du patient en assurant un soutient aupr s du m decin gr ce des outils d aide la d cision de contr le de l activit de suivi du processus de soins et de s curisation des soins l acc s aux connaissances m dicales informations sur la recherche clinique guides de bonnes pratiques cliniques pour les m decins ainsi que l aide l ap prentissage dans le cadre de la formation m dicale continue 4 de recueillir les donn es concernant l activit de l h pital les pathologies trait es par exemple et son mode de fonctionnement exemple mode de prise en 39 Le site du laboratoire est accessible ici http cybertim timone univ mrs fr 40 Un syst me d information repr sente l ensemble des l ments participant la gestion au stockage au traitement au transport et la diffusion de l information au sein d une organisation 41 Les pratiques m dicales sont en perp tuelle volution le m decin est donc oblig tout au long de sa carri re de maintenir ses connaissances jours gr ce la formation m dicale continue 15 Chapitre 1
420. ubject Headings Healthcare Common Procedure Coding System Classification internationale des maladies traitement langage naturel Vocabulaire contr l Terminologie Algorithme tude valuation ill Abstract Information retrieval and decision support systems need fast and accurate access to the content of documents and efficient medical knowledge processing Indexing describing using keywords enables access to knowledge and knowledge processing In the medical domain an increasing number of resources are available in electronic format and there is a growing need for automatic solutions to facilitate knowledge access and indexing The objectives of my PhD work are the implementation of an automatic multi terminology multi document and multi task indexing help system namely F MTI French Multi terminology Indexer It uses Natural Language pro cessing methods to product an indexing proposition for medical documents We ap plied it to resources indexing in a French online health catalogue namely CISMeF to therapeutical data indexing for drug medication and to diagnosis and health pro cedures indexing for patient medical record Keywords Abstracting and Indexing methods Information Storage and Retrie val methods medical records Systematised Nomenclature of Medicine Medical Subject Headings Healthcare Common Procedure Coding System International Classification of Diseases Natural Language Processing vocabulary contr
421. uipe CISMeF a adapt le MeSH depuis 1995 pour caract riser d avantage les ressources de sant sur l Internet pour la recherche d information l extraction d in formation et la cat gorisation C est cette terminologie qui est utilis e par l quipe CISMeF pour indexer les ressources de leur catalogue Pour les besoins de l quipe CISMeF la base des synonymes a t enrichie en d finitions ainsi que de plus de 10 000 synonymes dans le cadre du projet VUMeF d j abord dans le chapitre 1 23 Un acc s cette terminologie est disponible sur le site CISMeF accessible via http terminologiecismef chu rouen fr 37 Chapitre 2 Etat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation D autres types de concepts hi rarchis s ont eux aussi t d finis les types de res sources et les m tatermes ont t ajout s Douy re04 Une nouvelle relation a aussi t int gr e la relation lt action pharmacologique gt qui est une relation descriptive qui indique l int r t scientifique du compos chimique Les types de ressources d finissent la nature de la ressource et non pas son contenu comme les mots cl s descripteur ou descripteur qualificatif exemple le type de ressource lt recommandations gt est diff rent du descripteur lt recommandations gt qui est utilis pour d crire une ressource qui parle de recommandations ce qui permet de d crire ave
422. ultation le m decin pr ferera ne consulter que les l ments importants comme les maladies en cours pour une lecture rapide Dans le cadre du budget les termes d indexation sont souvent limit s aux codes classants voir section 2 4 3 1 En revanche dans un contexte de recherche d information d analyse de donn es ou d alertes nous pensons qu une extraction compl te des concepts pr sents dans le compte rendu et d crits dans la terminologie est pr f rable Une valuation secondaire qualitative sur les codes extraits par F MTI sera ef fectu e par un expert en assignant chaque code une tiquette lt pertinent gt lt non pertinent gt et lt peu pertinent gt comme r alis dans la section 4 2 4 pour le MeSH L indexation SNOMED une t che complexe La nomenclature SNOMED 3 5 contient sept fois plus de termes et est 11 fois plus complexe que la CIM10 du fait de la possibilit de combinaison des termes provenant des 11 axes De plus il n existe ce jour aucune r gle d indexation concernant la SNOMED 3 5 Vu le peu de temps d di la t che d indexation manuelle en SNOMED nous pouvons imaginer que cette derni re ne pourra jamais tre r alis e sans une assistance informatique ou une restriction tr s s v re des termes utilis s Ces observations peuvent tre transpos es l indexation en SNOMED CT celle ci renfermant plus de 370 000 concepts et 1 000 000 termes presque trois fois plus que la SNOMED 3 5 et plus
423. un GHM Groupe Homog ne de Malades Un GHM remplit certains crit res diagnostics actes etc li s un co t ce qui permet en pratique pour un s jour et pour un malade de conna tre le co t associ pour l tablissement Le codage m dico conomique se limite le plus souvent aux codes diagnostics et actes permettant la classification en GHM Les informations recueillies dans le cadre du PMSI sont prot g es par le secret professionnel Les RSS sont ainsi anonymis s en RSA r sum de sortie anonyme avant d tre transmis La transmission des donn es l Agence R gionale de Hospi talisation ARH se fait mensuellement 2 4 3 2 Classification statistique Internationale des Maladies et des probl mes de sant connexes 10 me dition CIM10 L origine de la CIM remonte aux ann es 1850 avec the International List of Causes of Death de W Farr Ces travaux reprenaient entre autres ceux de J Graunt datant de 1700 Elle f t adopt e par the International Statistical Institute en 1893 gr ce aux travaux de J Bertillon qui publie la Nomenclature Internationale des Causes de D c s Puis elle t adopt e par l organisation mondiale de la sant OMS en 1948 OMS50 La neuvi me r vision CIM9 et son adaptation clinique CIM9 MC ont t rendues plus aptes servir en mati re de statistiques relatives l valuation des soins m dicaux Elle est ainsi utilis e pour le codage m dico conomique des dossiers
424. un diab te chez cet enfant gt Malheureusement cette m thode peut induire des erreurs en indexant un terme dont les mots peuvent tre loign s dans la phrase et ne pas correspondre au m me terme Exemple pour la phrase Ce m dicament est contre indiqu pour l enfant diab tique et l adulte asthmatique gt l algorithme du sac de mots indexe les termes lt enfant diab tique lt enfant asthmatique gt adulte diab tique gt et adulte asthmatique gt Les termes lt enfant asthmatique gt et lt adulte diab tique gt sont faux Ceci peut tre am lior en acceptant une distance limite entre 2 mots afin de privil gier les combinaisons de mots localement proches Cette am lioration sera exploit e dans une version ult rieure de l algorithme De plus il est difficile d identifier les n gations pour cette m thode voir section 3 9 1 Et l indexation est limit e aux termes de moins de 6 mots signifiants et ne peut donc se faire sur l ensemble des termes de nos terminologies 3 8 2 M thode du dictionnaire de termes 3 8 2 1 M thode des dictionnaires DELA Cette m thode est inspir e de l approche TAL utilis e dans l extracteur MeSH MAIF N v ol05a Dans le syst me MAIF l extraction des termes MeSH se fait l aide d un dictionnaire de termes au format DELA Le dictionnaire de termes contient les formes textuelles des termes leurs d rivations exemple asthme asth matique flexions exemple bact
425. un langage sp cifique exploitable par un syst me informatique La m thode d indexation d pend du mode de recherche et des applications vis es La notion d indexation se retrouve dans diff rents domaines Lef vre00 en informatique l index qui permet de d crire une base de donn es est compos des cl s d enregistrement de tous les l ments de la base associ s un pointeur en dition l index situ la fin d un ouvrage indique les notions importantes d velopp es dans l ouvrage associ es leur num ro de page d apparition Le lecteur peut alors retrouver facilement une notion dans l ouvrage partir de l index en documentation l indexation consiste recenser les concepts les notions les sujets dont traite un document et les repr senter l aide d un lan gage documentaire Cette indexation sert classer et retrouver les documents lectroniques dans le cadre de la recherche d information contextuelle et docu mentaire Dans la base documentaire on retrouve alors pour chaque concept du langage documentaire les emplacements url par exemple des documents lectroniques qui traitent de ce concept Nous avons dans notre sujet deux bases documentaires distinctes Le catalogue CISMeF base documentaire qui associe chaque ressource son URL et les termes CISMeF correspondants aux types de la ressource et aux sujets trait s dans la ressource 11 Base de donn es bibliogra
426. une signification nouvelle 2 Generic Analyser and Listener for Indexed and Linguistics Entities of Information l algo rithme est t l chargeable gratuitement sur le site du projet http www galilei ulb ac be 115 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es trait s tour de r le en utilisant des r gles et des conditions comme l algo rithme pr c dent 482 r gles voir liste figure 4 2 De la m me fa on ici l ordre des tapes est tabli pour que ce soit le suffixe le plus long qui d termine la r gle appliquer Les diff rences principales outre le nombre de r gles appliqu es sont les condic tions prise en compte Pour les auteurs chaque mot du fran ais peut tre r duit cette formule C VC V o VC est r p t un m gt nombre de fois C consonne V voyelle les crochets marquent des v nements optionnels Les conditions portent sur la valeur de m SUFFIXE SUFFIXE NORMALISE issaient ellement el issement alement al eraient iraient eassent ussent amment emment issant m 0 0 0 0 0 0 0 0 0 0 0 FIGURE 4 2 Quelques r gles de d suffixation pour l algorithme de Carry et le Frenchstemmer de Lucene Cutting04 r alis par Patrick Talbot celui ci s inspire aussi des travaux de Porter Cet algorithme se d roule en 6 tapes limination des suffixes standard trai tement
427. ur chaque code MeSH les d finitions auxquelles ils sont rattach s Les attributs 189 Chapitre A Annexes Section A 2 Mod les unitaires pour la base de donn es multi terminologique L attribut code d signe le code MeSH auquel s applique la d finition et les attributs d finition et source renseignent la d finition ainsi que sa source Commentaires Il existe de 0 n d finitions pour chaque code MeSH Classe Dictionnaire But Cette classe indique toutes les variations flexions synonymes et leurs classes lexico syntaxiques pour chaque terme MeSH Les attributs L attribut terme d signe les variations lexicales fonctionnelles ou synony miques pour le code MeSH et l attribut donn es lexico syntaxiques leurs donn es lexicales ex maladie ou syntaxiques ex nom f minin pluriel Enfin l attribut code renseigne le code du terme MeSH dont les variations sont indiqu es Classe des Actions pharmacologiques But Cette classe renseigne tous les liens lt action pharmacologique gt entre deux termes MeSH Les attributs Les attributs code et action pharmaco d signent le code MeSH du descrip teur ainsi que le code MeSH pr cisant son action pharmacologique L attribut qualif renseigne le qualificatif pr cisant le sens du code descripteur Commentaires Il existe de 0 n liens lt action pharmacologique gt pour chaque code MeSH A 2 2 Mod le TUV Ce mod le est
428. ut d abord s lectionner le service du patient Dermatologie Cardiologie puis le patient et le s jour d int r t D s l ouverture de la fiche des diagnostics de s jour voir figure A 9 nous pou vons observer que le bouton CISMeF n est pas apparu pour le diagnostic principal lt chol ra gt ayant pour code CIM10 A00 1 car celui ci n a pas d quivalence MeSH il n est donc pas trouv dans les tables de transcodage Le diagnostic reli l lt agranu locytose gt D70 est lui trouv son terme MeSH est lt agranulocytose gt Des recom mandations destination du m decin existent dans CISMeF 3 ressources trouv es Il en est de m me pour les diagnostics secondaires Lorsque que l on appuit sur le bouton CISMeF la requ te lt agranulocytose mc et recommandations tr gt est lanc e mc mots cl s tr type de ressource voir figure A 10 lt Agranulocytose gt est le 1 Healthcare Information System Architecture 201 Chapitre A Annexes Section A 5 D monstration Guamas yaive risans isa FS vue ae ATEN Ravel patient Ve ODUM PATIENT isie cee d T pesi tem fe eu em ete CRM Ge VS FF Veet enartar AC ES Aree NAAMAA AANANIA Appii JOUR 2 UNDAE UMTE ALBERT de OVNA AGNOSTIC DE TE JOUR VS sejour OMG RAPE AbD OnMeVLs Su Th OEE TE GAL OU Saw OE HD ADUN 11451 COM FAQ ay Dr HELA du TMS 122800 1 COM PAM ONAQUE HEUS AMEL chy TDAI
429. utilisant une m thode TAL avec indexation directe Enfin il n existe pas d outil d indexation automatique libre pour la SNOMED 3 5 en fran ais En revanche pour le MeSH les travaux sont nombreux Il existe plusieurs types d indexation pour une terminologie directe indirecte et mixte directe plus indirecte Aucune valuation n a pu montrer quelle tait la meilleure m thode Les outils utilisent des approches diff rentes Les diff rentes approches pr sentent des avantages et des inconv nients Les m thodes de classification automatique ont l avantage de ne pas avoir analyser le sens d un texte ou prendre en compte les r gles d indexation pour une terminologie En revanche ils ont pour d faut d apprendre la fa on dont a t index un corpus pr cis pour une t che pr cise Face l indexation d un nouveau document pour une autre t che la m thode ne sera pas autant efficace Dans le cadre de l indexation CIM10 par exemple l outil CIREA a appris r aliser une indexation m dico conomique comprend des r gles sp cifiques 72 http www medsight info com IndexFr html 73 Secr tariat Francophone International de Nomenclature M dicale 73 Chapitre 2 Etat de l art Section 2 6 Aide l indexation au classement en GHM des s jours il serait donc incapable de r aliser une indexation purement descriptive de comptes rendus m dicaux deux t ches diff rentes De plus il peut
430. vaux pour le dossier m dical lectronique autour de deux axes Le premier axe consiste comprendre expliciter mod liser repr senter et uti liser les connaissances contenues dans le dossier m dical informatis afin de faciliter leur acc s et leur acquisition La plupart des auteurs menant des tudes pid miologiques sur la base des banques de donn es m dico conomiques concluent leur manque de qua lit de validation et leurs lacunes concernant les donn es cliniques Deyo94 Jollis93 En effet des diagnostics susceptibles de baisser la tarification seront peu souvent cod s Il s av re donc n cessaire de compl ter ces bases par une indexation compl te et descriptive De plus gr ce une indexation descrip tive de l int gralit des documents du dossier patient une recherche d infor mation telle que celle effectu e dans le moteur de recherche CISMeF serait tout fait possible Permettre cette indexation ainsi que le codage des donn es m dico conomiques sous entend l usage de terminologies riches ainsi que des connaissances sur le langage m dical Dans cet objectif un important travail a t r alis afin de cr er de meilleures ressources pour le traitement des termes biom dicaux permettant ainsi un meilleur acc s aux informations contenues dans les parties textuelles des dossiers m dicaux lectroniques AvillachO8b Ces travaux ont t men s dans le cadre du projet UMLF Zweigenbaum03
431. vrement de chaque ensemble l un par rap port l autre Enfin nous avons mesur la pr cision et le rappel pour comparer la r f rence CIM10 les codes SNOMED transcod s en CIM10 pour les deux outils 4 2 3 4 R sultats de l extraction de termes SNOMED pour les dossiers patients Nombre moyen de codes Nombre moyen de codes Nombre moyen de codes SNOMED par compte rendu CIM10 par compte rendu en CIM10 par compte rendu en consid rant les transcodages utilisant le m me transcodage d origine 26 5 26 5 Gode 42 a FIGURE 4 12 Nombre moyen de codes par compte rendu La figure 4 12 montre que SnoCode extrait moiti moins de codes que F MTI 54 9 vs 100 3 La moiti des codes SNOMED extraits par SnoCode a aussi t 128 Chapitre 4 Evaluation de l indexeur multi terminologique Section 4 2 Evaluations r alis es extrait par F MTI voir figure 4 13 Les figures 4 12 et 4 14 pr sentent les r sultats de la comparaison des deux outils apres transcodage vers la CIM10 Le changement du type de transcodage produit des r sultats diff rents Le nombre de codes moyen extraits par compte rendu est pass de 7 17 codes extraits par SnoCode vs F MTI 26 5 codes et 4 2 pour l indexeur humain F MTI extrait beaucoup trop de codes par rapport SnoCode et l indexation Pourcentage de codes F MTI 29 9 couvrant les codes Snocode Pourcentage de codes Snocode 51 5 couvrant les c
432. xation obtenue par F MTI Cette valuation est secondaire et reprend les r sultats obtenus la premi re valuation Nous avons extrait pour 1 000 ressources tous les mots cl s consid r s comme faux dans la premi re valuation c est dire les mots cl s extraits automa tiquement mais non assign s par les indexeurs humains Nous avons ensuite de mand l un de ces indexeurs d associer chaque mot cl une appr ciation sur l im pact qu aurait l indexation de ce mot cl s pour la ressource des fins de recherche d information Trois types d appr ciation ont t assign s bon impact gt impact n gatif gt ou lt impact mineur gt Le corpus de 1 000 ressources tait constitu de 200 ressources portant le type de ressource lt recommandation gt 400 pour le type de res source mat riel et enseignement gt 300 pour le type de ressource lt patient gt et 100 pour tous les autres types de resources confondus Ces ressources ont t tir es au hasard afin de respecter les proportions du corpus d origine 4 2 4 4 R sultats de l extraction de termes MeSH pour les sites Web 4 2 4 4 1 Comparaison entre la lemmatisation et la d suffixation En comparant les r sultats du F MTT incluant la d suffixation ceux du F MTI incluant la lemmatisation voir figure 4 15 et 4 16 on observe dans la plupart des cas que la pr cision est un peu plus basse et le rappel un peu plus lev dans le cas de la d suf
433. xemple l expression lt l angine gt contient deux mots lt l gt et lt angine gt Un nombre est un mot Il faut donc liminer les espaces qui peuvent s parer le chiffre des milliers des autres chiffres De plus les d cimaux peuvent contenir une virgule ou un point qui font partie int grante du nombre Il faut donc veiller ce que cette ponctuation ne soit pas limin e Nous avons consid r que les mesures pouvaient avoir des formes tr s diverses et n avaient de sens qu en juxtaposant le chiffre et l unit de mesure Pour des soucis de normalisation le terme lt nombre unit gt sera donc consid r comme un seul mot limination des l ments non pertinents Le temps d appariement voir section appariement est directement li la taille du sac de mots de la phrase c est la raison pour laquelle le sac de mots est r duit aux mots les plus signifiants et pertinents Nous avons limin les mots vides Un mot vide est un mot non significatif figurant dans un texte En recherche documentaire les mots vides sont des mots qui sont tellement communs qu il est inutile de les indexer ou de les utiliser dans une recherche Les mots vides sont aussi g n rateurs de bruit donc il est recommand de les liminer selon la loi de Zipf Zipf49 et Luhn Luhn58 Nous disposions dans l quipe d une liste de mots vides obtenue partir de Lexique cr e par L Soualmia et utilis e dans l alg
434. xes rencontr s dans certaines conditions Les conditions portent sur la taille du mot le suffixe ou le mot L ordre de traite ment des suffixes implique de traiter les suffixes les plus long en premier Par exemple apres application de la r gle 1 le mot lt angines gt devient lt an gine gt qui devient lt angin gt le st me apr s application de la r gle 4 Cet algorithme a t choisi dans notre valuation car nous l avions notre dis position De plus la comparaison d autres algorithmes nous permettrait ventuellement d am liorer le moteur de recherche Doc CISMeF TBsuffixes txt ORDRE SUFFIXE TAILLE_MIN_MOT SUFFIXE_NORMALISE EXEMPLES SAUF_SUFFIXES SAUF_MOTS 151 2ler gt ll Il 4le 5 canne 5laux 5 hormonauxleaux 8leaux 5 eau vaisseaux 6leux 6 losseux TallSllgrippall Slissement 3 vieillissement 10 issant 8 vieillissantl 11 tv 5 digestivel 12 if 5 digestif FIGURE 4 1 Quelques r gles de d suffixation pour l algorithme CISMeF l algorithme de Carry Paternostre02 il constitue une adaptation fran aise de l algorithme de Porter qui traite les mots de la langue anglaise Porter80 Cet algorithme a t r alis par M Paternostre dans le cadre du projet de recherche GALILEI en 2002 Cet algorithme se d roule en diverses tapes par lesquelles les suffixes sont 1 Fabrication de nouveaux mots ou utilisation de mots habituels avec
435. xicales et syntaxiques A 4 CIM10 M tatermes MeSH Dans un deuxi me temps nous avons test cette hypoth se pour l assignation de m tatermes a la CIM10 Les m tatermes ont t d finis manuellement par un expert P Massari en utili sant la hi rarchie de la nomenclature Pour chaque sous chapitre de dernier niveau il a t d fini un ou plusieurs m tatermes lorsqu ils s appliquaient aux codes sous jacents Dans un certain nombre de cas des m tatermes ont t d finis au niveau des codes soit en compl ment soit quand aucun n tait adapt a tous les codes d un chapitre voir figure A 6 Codes CIM10 Metaterme 2 A00 infectiologie Code CIM10 Metaterme A00 bact rioloaie A15 5 otorhinolaryngologie 1 A15 infectioloaie A15 pneumologie A15 bact riologie FIGURE A 6 Assignation manuelle de m tatermes aux codes CIM10 Automatiquement nous avons utilis le transcodage CIM10 MeSH transcodage extrait du metathesaurus de l UMLS 13 Cette table permet de retrouver partir d un code CIM10 le ou les mots clefs MeSH suppos s quivalents au terme CIM10 Cette m thode est limit e puisque tous les codes CIM10 n ont pas d quivalent en MeSH Seul 8 9 des codes CIM10 sont transcodables Et partir des relations termes MeSH m tatermes de la terminologie CISMeF nous avons obtenu la liste des m tatermes reli s a ces termes MeSH 200 Chapitre A Annexes Section A 5 D monstration
436. ximale de la prescription m dicale en g n rant des alertes ad quates et en donnant au prescripteur les informations pertinentes en lien avec le traitement Chaque RCP au format PDF est associ par Vidal des m tadonn es sur la forme sp cialit date etc et sur le contenu l aide des th saurus Vidal Indications Contre indications Mises en garde Pr cautions d emploi et Effets secondaires et d autres terminologies CIM10 ATC 25 CISP 7 26 Classification Anatomique Th rapeutique et Chimique maintenue et publi e par POMS 27 Classification Internationale Des Soins Primaires 41 Chapitre 2 Etat de l art Section 2 4 Les bases de notre sujet pr sentation des taches d indexation L indexation manuelle de la partie th rapeutique consiste indexer des termes des thesaurus de diff rents types Voici le d tail de indexation pour chaque partie du RCP Composition Cette rubrique peut contenir des informations sur des pr cautions d emploi ou contre indications qui seront alors index es respectivement avec le type lt PE gt et lt CI Les contre indications et Pr cautions d emploi peuvent tre signal es par des expressions comme tenir compte de gt ou R serv a gt Posologie et mode d administration Les informations concernant l tat du patient exemple lt sujet g gt ou lt in suffisant h patique gt seront index es avec le type lt PE gt
437. xpression lt sans gt Ces expressions sont toujours en fin de terme c est pourquoi le programme informatique limine le mot lt sans gt et tout ce qui suit Le libell d indexation du premier terme est lt contusion d un orteil gt pour le deuxi me terme il est gale au libell d origine Le deuxi me terme ne sera retrouv que s il est pr cis dans la phrase qu il y a l sion de l ongle si rien n est pr cis c est le premier terme qui sera retrouv Les expressions en lt sauf gt indiquent des exceptions exemple S92 Fracture du pied sauf la cheville La plupart de ces termes poss dent des fils plus pr cis ainsi le terme 92 a comme fils les diff rentes fractures du pied qui ne sont pas de la cheville dont le terme 92 9 lt fracture du pied sans pr cision En cas de fracture du pied le terme 92 9 sera donc index il n est pas n cessaire ici d op rer de traitement pour le terme S92 Si le terme ne poss de pas de fils alors nous liminons l expression lt sauf gt de la m me fa on afin que le terme puisse tre index La plupart des formes d exclusion sont accompagn es de formes d inclusion 3 Abr viation de sans autre indication 85 Chapitre 3 Conception de l extracteur multi terminologique Section 3 5 Cr ation de libell s d indexation exemple le terme S82 lt Fracture de la jambe y compris la cheville gt L encore si le terme poss
438. ym Auricular Fibrillation Auricular Fibrillations 0016899 Auricular Fibrillation preferred 0016900 40027932 plural variant Auricular Fibrillations Auricular Fibrillations from MeSH FIGURE 2 4 Les concepts de l UMLS Le r seau s mantique alors que le M tathesaurus fournit une liste de tout le vocabulaire des expressions m dicales disponibles le R seau S mantique apporte une structure a ces termes Cette structure permet notamment de proc der a des regroupements afin d englober dans une seule recherche tous les termes se rapportant a une expression donn e Le R seau S mantique com porte 135 types s mantiques exemple disease or syndrome et lt virus gt reli s par 54 relations Ces relations d notent de liens de hi rarchie et de non hi rarchie telles que les relations s mantiques r parties en 5 cat gories spa tiaux temporels conceptuels physiques et fonctionnels A chaque terme du m tathesaurus est associ un ou plusieurs type s s mantique s C est a tra vers ces types s mantiques qui sont reli s entre eux dans le r seau s mantique que les expressions du m tath saurus se retrouvent inscrites dans une struc ture Cette structure peut tre visualis e comme un graphe dans lequel les concepts sont des noeuds et les liens interconcepts sont les liens entre les noeuds A chaque type s mantique est associ un identifiant unique un nombre indiquant sa position da
439. ypes d actes m dicaux exemple lt chirurgie gt ou des sujets de sant exemple lt diag nostic gt lt th rapie gt La liste est disponible via l URL suivante http doccismef chu rouen fr liste_des_meta_termes_anglais html 177 Chapitre 7 Conception d outils et mise au point de m thodes pour l acc s aux connaissances Section 7 4 Recherche par sp cialit m dicale tient voir figure 7 6 La vue lui permet ainsi de gagner un temps pr cieux sans avoir conna tre la date de l acte passant ainsi de 5 moins de 2 minutes de recherche E JRECAPITULATIF MEDICAL PATIENT V1 V7 6 45 Du 04 12 2006 13 Attention ce dossier est actuellement filtr sur les sp cialit s suivantes INDEXATION SPECIALITES Ea addictologie 3 Jallergologie etimm gorl au VALIDER le DOSSIER sera FILTRE sur les SPECIALITES suivantes ARTHROPLASTIE cardiologie chirurgie TE JARTHROPLAS TIE 3 JARTHROPLASTIE a EXCISION TUMEL ider _ arme Eome 5 _JEXCISION TUMEL 6 JARTHROPLASTIES pour suite de la fiche mettre l ascenseur directement en bat zj Ma Ex Em FIGURE 7 6 Recherche par sp cialit dans la fiche de synth se d un patient dans le logiciel CDP2 L valuation a t r alis e par des m decins et plusieurs sp cialistes car diologues pneumologues gastroent rologues Massari08 La recherche classique orient e

Download Pdf Manuals

image

Related Search

Related Contents

PDFファイル  H8S, H8/300 Series Simulator/Debugger V.5.09.00 Supplementary  Tutorial - Avenza Systems Inc.  shirota - 城田電気炉材  Asahi Pentax IQZoom 700 Operating Manual  Sigma KS-1018 Operation Manual  Open User Manual - Underhill Geomatics Ltd  MS992CUMFG  00 ficha tecnica - Ruderil Ibérica sa  BICARBONATO POTÁSICO - Dolmar Productos Enológicos  

Copyright © All rights reserved.
Failed to retrieve file