Home
Medina — Manuel d`utilisation - MEDINA (Medical Information
Contents
1. pr noms 45 Fichier anonymis hyp Version post trait e avec tous les scripts antidatation pseudonymes et hyperonymes Monsieur Claude Martin 13 10 49 est malheureusement revenu dans le service du 27 juillet au 3 ao t 1996 pour la constitution d un nouvel infarctus cette fois en territoire inf rieur alors qu il avait pr sent un premier pisode d infarctus en territoire ant rieur en janvier 96 Version post trait e directement apr s la sortie balis e hyperonymes Monsieur lt prenom gt lt nom gt lt date gt est malheureusement revenu dans le service du lt date gt pour la constitution d un nouvel infarctus cette fois en territoire inf rieur alors qu il avait pr sent un premier pisode d infarctus en territoire ant rieur en lt date gt 5 Historique 18 novembre 2008 version la Cr ation de outil dans le cadre du projet Akenaton pour anonymiser les comptes rendus cliniques en cardiologie 23 novembre 2008 version 1b Le programme bouclait sur les expressions r guli res des dates en raison des s parateurs d finis dans la variable sep le point n tait pas suffisamment d sp cialis sep au lieu de sep en cons quence le point tait interpr t comme n importe quel caract re et non comme un point exemple du num ro de s rie TCA020372V dans le document 4088104749 txt En revanche impossible de sp cifier que le s parateur doit tre le m me ent
2. 1g Adaptation du script aux guidelines d anonymisation d finis pour le papier AMIA2012 et r introduction de la seconde anonymisation 27 f vrier 2012 version 1h Ajout d une fonction etudePortion qui tudie le contexte dans lequel se trouve un patron pass en argument Si le patron figure dans une portion d j annot e la fonction renvoie 1 sinon 0 Permet d viter d annoter des entit s l int rieur de portion d j annot e par exemple un pr nom dans une adresse 28 f vrier 2012 version li Une seule r gle pour les stimulateurs cardiaques une marque de stimulateur suivie de un cinq mots commen ant par une capitale ou un chiffre et absent du dictionnaire de mots communs Ajout des d clencheurs l h pital et l H pital dans le fichier de configuration l article est int gr la portion annot e 29 janvier 2012 version 1j Le corpus de test a t enti rement revu 1h de travail des entit s ayant t oubli es Idem pour le corpus d apprentissage Modifications mineures 12 mai 2012 Cr ation d un script de post traitement le script 2_antidatation pl permet d anti dater toutes les dates d un document d un nombre de jours al atoirement tir entre 365 et 1460 soit entre 1 et 4 ans Garantit une anonymisation et une conservation des carts temporels entre deux dates d un document 16 mai 2012 version 1k Meilleure prise en compte des dates apr s application du scrip
3. vide en d but de tableau et le remplacement des espaces par une balise lt ho pital gt 10 d cembre 2008 Dans le fichier de configuration production de deux listes de d clencheurs pour les h pitaux une liste longue Centre hospitalier et une liste courte Centre pour viter que les d clencheurs courts prennent le dessus sur les d clencheurs longs 12 janvier 2009 Lors de la r criture du fichier anonymis supprime les espaces autour des tirets un traitement associant TENORMINE ALDACTAZINE ASPEGIC LODALES LEVOTHYROX devient un traitement associant TENORMINE ALDACTAZINE ASPEGIC LODALES LEVOTHYROX dans le document 4088107098_ano txt Cette modification pose pro bl me si un alignement de corpus est effectu entre r f rence et r sultat anonymis pour va luer la qualit des r sultats Lignes comment es 19 janvier 2009 version 1c Les tableaux de stockage des donn es ont t remplac s par des tables de hachage tableau devient tableau noms devient noms etc L anonymisa tion des donn es par comparaison avec les r f rences contenues dans ces tableaux s en trouve beaucoup plus rapide on passe de 11min 40 seulement 3 secondes pour traiter 23 fichiers 11 f vrier 2009 Am liorations ponctuelles diverses compl tion de la liste des d clencheurs de noms Madame Mademoiselle Monsieur int gration d l ments suppl mentaires lors de la seconde anonymisation etc 13 f vr
4. 5_hyperonymes pl remplace les donn es pr c demment identifi es par un hyperonyme conservation des dates si script appliqu sur des fichiers dat conservation des noms et pr noms si appliqu sur des fichiers pse 3 2 Configuration et lancement 3 2 1 Balisage des informations personnelles L outil d anonymisation repose sur une premi re phase de rep rage des informations ano nymiser l issue de ce rep rage les informations seront encadr es de balises XML typant lin formation identifi e Le script produit des fichiers d extension med dans le r pertoire des documents 1 Ouvrir le fichier de configuration avec un diteur de texte et modifier les diff rents champs selon les besoins indiquer les informations qui doivent tre anonymis es face chaque cat gorie adresses ges codes postaux dates h pitaux m dicaments mesures noms pr noms num ro de s curit sociale r f rence des stimulateurs cardiaques t l phones unit s hospitali res villes indiquer les listes de ressources linguistiques utiliser compl ter les listes de d clencheurs indiquer l ge minimum au del duquel l anonymisation de l ge des patients est requise la l gislation am ricaine HIPAA impose d anonymiser les ges au del de 90 ans indiquer le format des balises utiliser pour traiter les donn es 2 Cr er un r pertoire contenant les documents au format textu
5. Medina Manuel d utilisation Cyril Grouin LIMSI CNRS Rue John von Neumann 91400 Orsay cyril grouin limsi fr 11 janvier 2014 Table des mati res 1 Pr sentation 1 D 2 Lancement rapide 2 1 Balisage des informations 2 2 Post traitements N YN 3 Utilisation d taill e 3 1 Architecture globale de Poutil 3 2 Configuration et lancement 3 2 1 Balisage des informations personnelles 3 2 2 Remplacement des informations identifi es w CO CO CO w 4 Exemple 4 1 Fichier d origine txt 4 2 Fichier balis medii sut di nantes QU pe et PA da R mn ler ter al 4 3 Fichier antidat dat 3 2 ges fe Lane Mig a EE fu rar enr en a ea a 4 4 Fichier g n rique pse 4 5 Fichier anonymis hyp ar AARAA ot 5 Historique 1 Pr sentation Medina est un outil d anonymisation des donn es personnelles pr sentes dans des documents textuels Cet outil a t d velopp pour traiter des comptes rendus cliniques en cardiologie Lou til se compose de plusieurs scripts un premier permettant le balisage des informations ano nymiser suivi de scripts de post traitements pour proc der l anonymisation L outil a t d ve lopp en
6. e et anonymise des portions enti res je le commente un mod le double chambre qui permettra une stimulation de l oreillette en cas de bradycardie sinusale li e la majoration du traitement f bloquant est anonymis en un mod le lt info gt 19 janvier 2011 Adaptation du programme au corpus d anatomopathologie En seconde anonymisation on v rifie que le mot trouv ne figure pas dans le lexique avant de le consid rer comme un nom ou un pr nom Le code postal doit obligatoirement tre suivi par une espace et des caract res on ne peut pas le rencontrer en fin de ligne ou suivi par des toiles num ro de dossier 5 chiffres Les indices de grades interne externe doivent commencer par une capitale pour viter les anonymisations des adjectifs face interne Probl me galement pr sent en stomatologie 23 f vrier 2012 version 1e et 24 02 12 version 1f Adaptation du script aux exp riences pour le papier AMIA2012 Les informations anonymis es sont d sormais encadr es des balises typantes et non plus remplac es comme auparavant La pr c dente version rempla ant les in formations par des balises une valuation au moyen du script de scoring n cessitait un r ali gnement 7e entre le fichier nom d origine et le fichier med anonymis produisant un fichier enc valuer Des probl mes d alignement ont conduit suspendre cet alignement 25 f vrier 2012 version
7. el anonymiser 8 Lancer le script d anonymisation au moyen de la commande suivante perl 1k_ balisage pl r lt r pertoire gt e lt extension des fichiers gt 3 2 2 Remplacement des informations identifi es Une ou plusieurs tapes de post traitements sont alors utiles pour proc der r ellement l anonymisation 1 Un script retranche chaque date un nombre de jours al atoirement tir compris entre 865 et 1460 jours soit entre 1 et 4 ans ou retranche le nombre de jour fix par l utilisa teur option n ce nombre est le m me pour toutes les dates d un document ce qui permet de conserver les carts temporels entre deux dates tout en observant le principe d ano nymisation Le format des dates est reproduit identique Le script produit des fichiers d extension dat perl 2_antidatation pl r lt r pertoire gt n lt nombre gt 3 2 Un second script remplace toutes les occurrences de noms et pr noms par des pseudonymes parmi l un des 660 noms et pr noms mixtes les plus port s en France Toutes les occur rences d un nom ou d un pr nom sont remplac es par le m me pseudonyme l int rieur d un document Le script produit des fichiers d extension pse perl 4 pseudonymes pl r lt r pertoire gt e lt extension des fichiers gt 3 Un dernier script remplace les donn es personnelles balis es par un hyperonyme la balise typant l information lt ville gt Versaill
8. es lt ville gt lt ville gt Ce script est appliqu soit sur les fichiers d extension med auquel cas toutes les informations sont anonymis es soit sur les fichiers d extension pse toutes les informations autres que les noms pr noms et dates seront anonymis es les noms pr noms et dates ayant t pr alablement trait s perl 5_hyperonymes pl r lt r pertoire gt e lt extension des fichiers gt 4 Exemple Le paragraphe d exemple suivant est issu d un compte rendu clinique en cardiologie Toutes les informations personnelles nom pr nom et dates ont t modifi es par rapport la version d origine Les dates qui figurent dans la version terminale anonymis e sont antidat es de 1377 jours soit environ 3 ans 9 mois et demi par rapport au fichier de base l cart temporel entre chaque date est n anmoins conserv 4 1 Fichier d origine txt Monsieur Th odore Bauche 21 07 53 est malheureusement revenu dans le service du 4 au 11 mai 2000 pour la constitution d un nouvel infarctus cette fois en territoire inf rieur alors qu il avait pr sent un premier pisode d infarctus en territoire ant rieur en octobre 99 4 2 Fichier balis med Monsieur lt prenom gt Th odore lt prenom gt lt nom gt Bauche lt nom gt lt date gt 21 07 53 lt date gt est malheureusement revenu dans le service du lt date gt 4 au 11 mai 2000 lt date gt pour la constitu tion d un nouvel infarctu
9. ier 2009 Suppression de la v rification de la pr sence des mots dans la liste noire lorsque ces mots sont pr c d s d un d clencheur Pr Dr etc permet d anonymiser Pr Weber alors que Weber figure dans la liste noire Ajout dans la trace du nom du fichier anonymis pour chaque info 21 juillet 2009 Petites retouches sur les dates qui ne se terminent pas par un s parateur mais par une fin de ligne La ville Marseille n est pas anonymis e ajout dans la liste des villes mais anonymisation tou jours pas r alis e pas de concordance avec la table des villes R solu le 23 juillet la liste utilis e est Ist_villes_ sur Marseille ajout e dans cette liste 28 juillet 2009 Lors de la r cup ration des noms de m dicaments depuis la liste on enregistre galement la version d saccentu e du m dicament on utilise le code hexad cimal de chaque accent pour r aliser la d saccentuation tr xE8 xE9 ee par exemple Lors du test mot mot des noms de m dicaments on teste galement le mot mis en minuscules avec initiale en capitale Ces deux am liorations permettent de traiter efficacement le document 4088107098 dans lequel figurent des noms de m dicaments en majuscules d saccentu s ALDACTAZINE test sous la forme A dactazine est anonymis de m me que ASPEGIC test comme Aspegic est trouv comme tel dans la table de hachage des m dicaments apr s avoir enregistr Asp gic sous la forme Aspegic 31 jui
10. llet 2009 On cr e une bijection sur les noms de m dicaments compos s uniquement ceux int grant une espace de mani re appliquer cette bijection sur les lignes Permet de traiter Di Antalvic Insuline NPH etc 16 janvier 2010 Les tableaux de m dicaments pr noms et h pitaux sont tri s par tailles d croissantes des noms m me principe que dans Cokaine COrpus and Knowledge bAsed INfor mation Extraction outil d extraction des prescriptions m dicamenteuses d velopp pour i2b2 2009 Del ger Grouin Zweigenbaum 26 janvier 2010 Bonne gestion des passages d arguments dans les routines plus aucun mes sage d erreur 29 janvier 2010 version 1d Dans le second passage un mot commen ant par une capitale suivant une balise lt nom gt est remplac par une balise lt prenom gt uniquement si ce mot n est ni pr nom ni docteur permet d viter les cas Nom lt nom gt Pr nom lt prenom gt qui devient Nom lt nom gt lt prenom gt lt prenom gt et C DUPONT Docteur F DURAND qui devient lt nom gt Docteur lt nom gt Cr ation de tableaux de bijection sur chaque liste de d lencheurs permet de trier par taille d croissante chaque l ment Possibilit de trouver les expressions r guli res list es en fin de ligne 8 f vrier 2010 Bloque sur certains fichiers a priori en raison des parenth ses qui sont mal interpr t es dans les expressions r guli res 5 mars 2010 Extensi
11. on des fichiers de sortie chang e de XML en SGML car pas vrai XML Oui mais bof 29 avril 2010 En seconde anonymisation prise en compte des mots commen ant par une capitale pr c dent une balise lt nom gt ou lt prenom gt Ces mots sont anonymis s uniquement si ils ne sont pas pr sents dans la liste des d clencheurs de noms 1 septembre 2010 partir du corpus clef en stomatologie ajout de nouvelles entit s anony miser grades num ros de dossier acte m dical et ajout de d clencheurs suppl mentaires pour les noms m tier anesth siste op rateur aide Les fichiers anonymis s ont pour extension med comme Medina tandis que ano est r serv e comme extension de sortie de la cha ne par apprentissage Wapiti ou CRF mon 20 d cembre 2010 Modification des boucles if en while avec option g pour anonymiser tous les l ments pour une ligne et pas seulement le premier Am lioration des patrons et ajout de nouvelles r gles Permet de traiter presque tous les noms et pr noms du corpus Le traitement mot mot est remont dans la hi rarchie des op rations 23 d cembre 2010 Ajout anonymisation compl mentaire sur la base de ce qui a d j t anonymis permet de traiter les entit s absentes des listes mais d j trait es par des r gles ou des d clencheurs pr nom Nenci 10 janvier 2011 Le patron ligne mod le pour les informations de pace maker est trop larg
12. re plusieurs l ments d une date 0 9 2 sep 0 9 2 3 0 9 2 4 renvoie comme message d erreur Use of uninitialized value in concatenation or string 24 novembre 2008 Les listes utilis es ont g n ralement t nettoy es des mots ambig s c d ceux galement pr sents dans le dictionnaire de noms communs en cons quence de v ritables noms de villes Rennes pr noms Sylvain peuvent ainsi avoir t extraits de ces listes car am big s En tenir compte lors de la compr hension des erreurs Le package use encoding utf8 permet d indiquer Perl que les expressions r guli res contenues dans le code doivent tre interpr t es en UTF 8 il faut combiner les use open pour que les entr es sorties soient encod es en UTF 8 8 d cembre 2008 R solution du probl me li au mois d ao t dans les expressions r guli res permettant l anonymisation des dates lors de la r cup ration de la liste des mois depuis le fichier de configuration substitution de le forme ao t par la forme ao t pour rappel le code est enregistr en UTF 8 Les packages encoding utf8 open utf8 open std et Encode decode_utf8 sont rest s en commentaires Avant a t hospitalis du 11 au 12 ao t 2004 pour compl ment apr s a t hospitalis du lt date gt pour compl ment Modification r initialisation de la variable tableau au lieu de amp variable vite d avoir un enregistrement
13. s cette fois en territoire inf rieur alors qu il avait pr sent un premier pisode d infarctus en territoire ant rieur en lt date gt octobre 99 lt date gt 4 3 Fichier antidat dat Monsieur lt prenom gt Th odore lt prenom gt lt nom gt Bauche lt nom gt lt date gt 13 10 49 lt date gt est malheureusement revenu dans le service du lt date gt 27 juillet au 3 ao t 1996 lt date gt pour la constitution d un nouvel infarctus cette fois en territoire inf rieur alors qu il avait pr sent un premier pisode d infarctus en territoire ant rieur en lt date gt janvier 96 lt date gt 4 4 Fichier g n rique pse Monsieur Claude Martin lt date gt 13 10 49 lt date gt est malheureusement revenu dans le ser vice du lt date gt 27 juillet au 3 ao t 1996 lt date gt pour la constitution d un nouvel infarctus cette fois en territoire inf rieur alors qu il avait pr sent un premier pisode d infarctus en territoire ant rieur en lt date gt janvier 96 lt date gt 2 Noms les plus port s Martin Bernard Dubois Thomas Robert Richard Petit Durand Leroy Moreau Pr noms mixtes courants Alex Camille Charlie Claude Dominique Louison Ma Maxime Morgan St phane 8 Dans le d tail tous les noms d un document sont d abord relev s puis tri s par ordre alphab tique le premier nom dans l ordre alphab tique est remplac par Martin le second par Bernard etc Il en est de m me pour les
14. st traitements Modification des dates antidatation al atoire comprise entre 1 et 4 ans ou antidatation selon le nombre fourni par l utilisateur fichier med gt fichier dat perl 2 _antidatation pl r lt r pertoire gt n lt nombre gt Remplacement des noms et pr noms par un pseudonyme fichier dat fichier pse perl 4_pseudonymes pl r lt r pertoire gt lt extension des fichiers gt Remplacement des donn es personnelles par un hyperonyme fichier pse fichier hyp perl 5_hyperonymes pl r lt r pertoire gt lt extension des fichiers gt 3 Utilisation d taill e 3 1 Architecture globale de l outil L outil se compose des l ments suivants un fichier de configuration config un r pertoire constitu des ressources linguistiques data dictionnaire de mots communs liste noire de mots ne devant pas tre anonymis s listes de noms de m decins de noms d h pitaux de noms de famille de pays de pr noms et de villes un script pour baliser les informations personnelles 1k_balisage pl des scripts annexes de post traitements 2_antidatation pl remplace les dates pr c demment identifi es par d autres dates en conservant l cart temporel entre chaque date l int rieur d un m me document 4 _pseudonymes pl remplace les occurrences de noms et pr noms par des pseudonymes les 10 noms les plus port s en France et 10 pr noms mixtes
15. t d antidatation qui a r v l des erreurs dans le balisage des dates 2 juin 2012 Cr ation de deux scripts de post traitements le script 4 pseudonymes pl rem place les occurrences de noms et pr noms par des pseudonymes le script 5_hyperonymes pl rem place toutes les donn es balis es par un hyperonyme aucun remplacement si appliqu sur des fichiers dat ou pse R f rences Grouin et al 2009a GROUIN C ROSIER A DAMERON O et ZWEIGENBAUM P 2009a Une proc dure d anonymisation deux niveaux pour cr er un corpus de comptes rendus hospita liers In FIESCHI M STACCINI P BOUHADDOU O et LOVIS C diteurs Risques tech nologies de l information pour les pratiques m dicales volume XVII de Informatique et sant Springler Verlag France Grouin et al 2009b GROUIN C ROSIER A DAMERON O et ZWEIGENBAUM P 2009b Tes ting tactis to localize de identification In Stud Health Technol Inform volume 150 pages 735 739 Grouin et Zweigenbaum 2011 GROUIN C et ZWEIGENBAUM P 2011 Une approche plu sieurs tapes pour anonymiser des documents m dicaux RSTI RIA Intelligence Artificielle et sant 25 4 525 549
16. tre 2008 et 2012 dans le cadre du projet Akenaton pour anonymiser des comptes rendus m dicaux en cardiologie Si certains types d informations personnelles sont transverses aux dif f rentes disciplines m dicales nom pr nom adresse t l phone num ro de s curit sociale d autres sont sp cifiques marques de d fibrillateurs en cardiologie r f rences des dents en sto matologie etc Les types de donn es trait es s inspirent de la l gislation am ricaine HIPAA Medina ne r alise pas la distinction entre m decin et patient mais conserve la distinction entre nom et pr nom Il est possible d anonymiser par suppression des informations hyperonymes ou par remplacements antidatation pseudonymes 1 Automated Knowledge Extraction from medical records iN Association with a Telecardiology Observation Net work financement ANR 07 TecSan 001 06 2 Lancement rapide Deux options sont utiles r r pertoire contenant les fichiers obligatoire e extension des fichiers en entr e inutile pour le script des dates perl 1k_balisage pl r r pertoire e txt perl 2_antidatation pl r r pertoire perl 4_pseudonymes pl r r pertoire e dat perl 5_hyperonymes pl r r pertoire e med perl 5_hyperonymes pl r r pertoire e dat perl 5_hyperonymes pl r r pertoire e pse 2 1 Balisage des informations perl 1Kk_ balisage pl r lt r pertoire gt e lt extension des fichiers gt 2 2 Po
Download Pdf Manuals
Related Search
Related Contents
PDF – Introduzione (ITA) Garden Safe HG-93194 Instructions / Assembly COD (Chemical Oxygen Demand) ou Demande Coemar LEDko P Manual 公文書目録(PDF) 取扱説明書 Beyerdynamic DTX 300 p Cliquez ici pour télécharger le document HD7858, HD7857, HD7856, HD7855 User manual Copyright © All rights reserved.
Failed to retrieve file