Home
article
Contents
1. nements anormaux n tant par d finition pas similaires avec les autres ont une tendance de former des branches hautes dans la hi rarchie pr s de la racine Nous avons exp riment avec cette m thode utilisant un sous corpus de 110 documents choisis manuellement afin de simuler une base avec une r partition in gale entre beaucoup de documents traitant d v nements semblables et peu de documents traitant d v nements vari s Ce corpus de test comprend 50 documents traitant des collisions avec des oiseaux 50 traitant des remises de gaz 5 et 10 documents divers pris au hasard Nous avons calcul leur matrice de similarit en utilisant la m thode d crite ci dessus avant de proc der une CHA avec la fonction hclust de l environnement d analyse statistique R f La figure n 3 repr sente le dendrogramme produit par la CHA Nous nous int resserons en particulier aux regroupements se situant haut dans la hi rarchie Les clusters et g contiennent la majorit des documents traitant respectivement de collisions avec des oiseaux et de remises de gaz Plus pr s de la racine les clusters a b et c contiennent les 10 documents choisies au hasard c est dire les v nements anormaux que nous cherchons faire merger Le cluster e est aussi int ressant car il contient six documents traitant la fois de collisions avec des oiseaux et de remises de gaz autrement dit d v nements combinant plusieurs facteurs e
2. tre important pour l avenir d une firme pourrait s amorcer Lesca amp Blanco 2002 L hypoth se de base est que tout chan gement dans le contexte suffisamment important pour pouvoir influencer le bon fonctionnement d une entreprise est forcement signal bien avant qu il ne produise des cons quences visibles par tous De plus dans la p riode de codes en rapport avec les cendres volcaniques 6 L exemple de l explosion d une colonne dans la raffinerie de BP Texas City au mois de mars 2005 est parlant Ce d sastre provoquant la mort de 15 personnes est survenu lorsqu un nuage de vapeur form suite une erreur dans la quantit de p trole vers dans une colonne s est chapp et en contact avec une tincelle s est enflamm Lors de l investigation qui a suivi six autres cas quasiment identiques impliquant la fois la m me proc dure et le m me quipement survenus au cours des dix derni res ann es taient mis au jour aucun n ayant tourn au cauchemar uniquement du fait de l absence d une source de flamme proximit Tous les six taient pourtant d ment document s mais ce n est que lors de l investigation qu un lien entre ces six occurrences est identifi 7 Dans une grande compagnie a rienne le nombre de nouveaux rapports d incidents est aux alentours de 600 par mois 8 La politique actuelle de signalement d v nements relatifs la s curit actuellement mise en pl
3. Contribution la capacit d anticipation des entreprises par la sensibilisation aux signaux faibles In Congres International Francophone sur les PME 6eme dition p 10 1 MACRAE C 2010 Constructing near misses Proximity distance and the space between Risk amp Regulation MATTHEWS M TOLCHINSKY P BLANCO R ATSERIAS J MIKA P amp ZARAGOZA H 2010 Searching through time in the New York Times In HCIR Challenge 2010 MCQUITTY L 1966 Similarity analysis by reciprocal pairs for discrete and continuous data Educational and Psychological Measurement 26 4 825 PANG B amp LEE L 2008 Opinion mining and sentiment analysis Foundations and Trends in Information Retrieval 2 1 2 1 135 RASMUSSEN J 1997 Risk management in a dynamic society a modelling problem Safety science 27 2 3 183 213 SRIVASTAVA A N amp ZANE ULMAN B 2005 Discovering recurring anomalies in text reports regarding complex space systems In Proceedings of the 2005 IEEE Aerospace Conference TC 2001 An introduction to safety management systems Transport Canada
4. difficile ne serait ce que du fait du volume et de la diversit des bases textuelles Litt ralement noy s dans la masse 8 l acc s ces informations sera un g n rateur de frustration pour les experts en s curit qui doivent ne rien laisser de cot Les probl mes inh rents la gestion de la s curit dans un SGS savoir la diversit des sources d information la redondance la n cessit absolue d interpr tation de cette information par un expert et la disproportion entre sa fr quence et son importance sont depuis longtemps connus des sciences de gestion Partant d une toute autre probl matique celle de la n cessit d adaptation constante un environnement commercial et concurrentiel en constante mutation toute entreprise est amen e mettre en place des proc d s de veille strat gique autrement dit d tre constamment l coute de son environnement pour toute information pouvant indiquer un changement futur de ce dernier Voulant syst matiser ce processus d coute et d adaptation les chercheurs en gestion strat gique des entreprises ont forg la notion de signal faible Ansoff 1975 Loin d tre une th orie proprement parler ce concept est plut t une fa on particuli re et originale de voir l information D fini comme un signe d alerte pr coce le signal faible est une information dont l interpr tation sugg re qu un v nement susceptible d
5. gislation recommandations formations et manuels d utilisation visent contraindre les op rateurs un comportement standardis r put plus s r afin d am liorer le niveau global de s ret du syst me Le flux inverse encore moins vident Faire remonter des informations du terrain jusqu aux instances r gulatrices n cessite un ensemble de mesures des m thodes et un cadre juridique ad quat Le secteur a ronautique est pion nier dans cette politique du REX global gr ce la r glementation obligeant son recueil syst matique et le partage avec des instances r gulatrices au niveau national tout comme au niveau europ en Il est utile de noter le conflit majeur suscit par le REX la tension entre s curit et responsabilit Afin que le REX soit efficace on doit pou voir faire part des erreurs commises lors des op rations Or avouer une erreur remet en cause l op rateur qui l a commise et peut l exposer dans des organisations traditionnelles des sanctions ventuelles Nous laisserons de cot le d bat actuel sur le statut de l erreur humaine vis vis de la s curit pour dire qu afin de r duire le silence g n r par la crainte de sanctions et am liorer la qualit du REX de nombreuses industries ont mis en place des politiques de non punition et ou d anonymisation afin de favoriser le REX volontaire de la part des op rateurs Ce nouveau canal d information est ampleme
6. par Tree Tagger Dans un deuxi me temps nous construisons un espace termes en prenant les lemmes des noms adjectifs et verbes contenus dans le texte Ensuite nous construisons une matrice terme document ou chaque ligne est un vecteur correspondant un document de la collection dont les composants sont les importances dans son contenu de ses termes calcul es en utilisant la m thode de pond ration TF IDF Jones 2004 Enfin nous calculons le cosinus entre les deux vecteurs documents et B en avec leur produit scalaire et leur norme A B O Didi Bi IAMBO VE A x 5 B cos D Afin d explorer le comportement dans le temps des ensembles de documents similaires nous avons mis en place un outil qui projette ces documents sur un axe temporel La copie d cran ci dessous s interpr te de la mani re suivante Chaque point repr sente un document par rapport un document source les documents sont ordonn s chronologiquement sur l abscisse et class s par similarit sur l ordonn e Un seuil de arbitrairement fix 0 1 est appliqu afin de ne pas surcharger le graphique Plus un point est droite plus il est r cent et plus il est haut plus il est similaire au document source Ici est repr sent l ensemble d v nements similaires au document source suivant datant du 06 01 2003 11 L Aviation Safety Network disponible l adresse suivante http aviation safety net collecte les rapports traitant
7. par les pilotes est d une importance capitale pour la s curit du vol et toute source de doute est prendre au s rieux car elle peut indiquer soit une lacune dans la formation soit un probl me d ordre organisationnel 18 En tudiant les textes en question nous avons remarqu des pratiques tels que l usage des majuscules ou des r p titions de point projetons sur les textes afin de les classer par degr de subjectivit Les deux textes suivants de la m me longueur et issues de la m me base textuelle illustrent cet axe le premier faisant part de jugements personnels et crit la premi re personne contraste fortement avec le second beaucoup plus technique et impersonnel Rapport d incident exprimant un niveau de subjectivit lev LIAISON CASQUE ASSISTANT DEFICIENTE REPORT A l arriv e l assistant est inaudible je lui demande de changer de casque avant le d part dans 1h30 Lors des pleins il est toujours inaudible le m cano X pr sent au poste est tonn car l arriv e c tait bon Je lui explique que ce n est pas le cas et que j avais d j demand l change Liaison parfaite avec m cano X pour le litrage faisant penser un autre casque Au d part de nouveau inaudible alors que j informe l assistant de la situation il l ve l avion le BEACON est sur OFF 11 demande s il peut pousser Je redemande un changement de casque A
8. peut rechercher quelque chose quand il n a aucune id e de ce qu est cette chose documents sont projet s sur un axe temporel et leur distribution chronologique est calcul e Si l on consid re les textes de l exemple ci dessus comme les membres d un cluster ce cluster aurait un profil mergeant puisque les documents r cents sont beaucoup plus fr quents que les documents anciens et est susceptible d indiquer un risque nouveau prenant de l ampleur A l inverse la fr quence diminuant dans le temps d un groupe de documents si milaires peut indiquer l efficacit d une recommandation nouvellement mise l D autres profils chronologiques sont aussi int ressants comme des v nements survenant des rythmes particuliers hebdomadaire mensuel annuel par exemple 3 3 D tection d anomalie et v nements anormaux Les bases de REX contiennent un grand nombre d v nements similaires Quotidiennement les avions heurtent des volatiles et ratent des atterrissages cause d un vent lat ral Cependant un petit nombre d v nements anor maux jamais vus jusqu ici surviennent et il est possible de les identifier de mani re enti rement automatique en utilisant des techniques de rep rage d anomalie un ensemble de techniques statistiques enti rement bas es sur les donn es visant identifier dans une population les individus exceptionnels bizarres les outliers Chandola et al 2009 Puisqu il s agi
9. posteriori et de leur attribuer les nouveaux codes Afin de r pondre ce besoin nous employons des techniques d apprentissage automatique supervis et plus pr cis ment de classification automatique Cette t che consiste attribuer automatiquement une classe un individu en se basant sur les valeurs d un ensemble de variables Dans notre cas l individu est un texte classer les va riables sont les fr quences des termes dans le texte et la classe pr dire est le code de la taxonomie ADREP voir supra Voici le processus en d tail Nous partons d un ensemble suffisamment large de documents d j codifi s Compte tenu des sp cificit s des textes comme par exemple l abondance de mesures et de noms g ographiques nous appliquerons une s rie de pr traitements qui r duisent ces termes des tokens g n riques mesure pays etc Ensuite nous proc dons une analyse morphosyntaxique en utilisant l analyseur TreeTagger suivie d une analyse syntaxique en d pendances Enfin en se basant sur la structure syntaxique nous effectuons une extraction de s quences de mots en suivant les liens syntaxiques 9 Illustrons ce propos par un exemple prenons une entreprise sp cialis e dans la fabrication de cassettes audio vierges L avancement de la technologie et plus pr cis ment l invention du CD ROM rend son produit obsol te et l oblige s adapter en cons quence Or le fait que le CD ROM deviendra
10. rateurs etc sont incit s signaler tout v nement anormal relatif la s curit ainsi qu s exprimer d s qu ils jugent qu il y a un risque quelconque Ce basculement vers une vis e proactive dans la gestion du risque am ne donc d une part une augmentation importante du volume d information disponible puisque des faits de moins en moins loign s de la norme prescrite sont signal s Macrae 2010 et d autre part un changement du statut de cette information vis vis de l expert en s curit qui est amen se concentrer sur des faits o le risque est de moins en moins explicite et en faisant appel son intuition et son exp riences chercher aller au del de ce qui est r ellement signal et d celer les risques cach s Une telle int gration de la gestion de la s curit dans les op rations m me d une entreprise est au c ur du mod le SGS Syst mes de Gestion de la S curit vers lequel sont amen s s orienter de plus en plus d industries risque D fini comme une fa on de g rer la s curit sous une optique commerciale TC 2001 un SGS part de l hypoth se que la s curit au sein de l entreprise doit devenir l affaire de tout le monde amenant ainsi une encore plus grande diversification des types d informations relatives la s curit ainsi que ses sources Ainsi l identification d une information importante risque de devenir de plus en plus
11. un troisi me temps nous d velopperons les pistes que nous explorons actuellement visant exploiter davantage la notion de similarit en l associant la fois des m thodes de d tection d anomalie afin de rep rer des v nements anormaux ainsi qu des techniques de clustering afin de proc der des regroupements d v nements similaires que nous pouvons caract riser de diff rents mani res en fonction de leur comportement dans le temps Enfin nous explorerons un axe de recherche diff rent qui consiste effectuer des analyses linguistiques fines sur le contenu textuel afin de rep rer des variations stylistiques afin de rep rer les tats motionnels des r dacteurs de ces documents Chacune de ces techniques fera l objet de publications d taill es dans le futur De plus tant donn la nouveaut du domaine et le manque de protocoles d valuation ad quates ou de standards pr tablis contrairement aux domaines classiques comme le RI ou ET nous ne sommes pas encore en mesure de proposer une valuation chiffr e dans cet article dont la vocation est avant tout d introduire la probl matique g n rale de nos recherches Une th se est en cours depuis le mois de janvier 2011 au laboratoire CLLE ERSS l Universit de Toulouse 2 Le Mirail en troite collaboration avec la soci t de conseil en ergonomie industrielle Conseil en Facteurs Humains 2 REX et s ret industrielle 2 1 Fondemen
12. valuation d velopp par l quipe TALN au laboratoire LINA l universit de Nantes que nous avons adapt nos besoins notamment en rajoutant certains mots comme qualit dont nous avons v rifi le comportement axiologique dans notre corpus R f rences AH PINE J LEMOINE J amp BENHADDA H 2005 Un nouvel outil de classification non supervis e de docu ments pour la d couverte de connaissances et la d tection de signaux faibles Rares textt In Journ e sur les syst mes d information labor s Ile Rousse ANSOFF I 1975 Managing strategic surprise by response to weak signals California Management Review 18 2 21 33 ARAMPATZIS A VAN DER WEIDE T P KOSTER C H A amp VAN BOMMEL P 2000 An evaluation of linguistically motivated indexing schemes In Proceedings of the 22nd bcs irsg colloquium on IR research CHANDOLA V BANERJEE A amp KUMAR V 2009 Anomaly detection A survey ACM Computing Surveys CSUR 41 3 15 HERMANN E LEBLOIS S MAZEAU M BOURIGAULT D FABRE C TRAVADEL S DURGEAT P amp NOU VEL D 2008 Outils de Traitement Automatique des Langues appliqu s aux comptes rendus d incidents et d accidents In 76e Congr s de Ma trise des Risques et de S ret de Fonctionnement Avignon JONES K 2004 A statistical interpretation of term specificity and its application in retrieval Journal of documentation 60 5 493 502 LESCA H amp BLANCO S 2002
13. TALN 2011 Montpellier 27 juin 1 juillet 2011 Des outils de TAL en support aux experts de s ret industrielle pour l exploitation de bases de donn es de retour d exp rience Nikola TULECHKI CLLE ERSS Universit de Toulouse Le Mirail CNRS nikola tulechki univ tlse2 fr Conseil en Facteurs Humains http www cfh ergonomie linguistique com R sum Cet article pr sente des applications d outils et m thodes du traitement automatique des langues TAL la ma trise du risque industriel gr ce l analyse de donn es textuelles issues de volumineuses bases de retour d exp rience REX Il explicite d abord le domaine de la gestion de la s ret ses aspects politiques et sociaux ainsi que l activit des experts en s ret et les besoins qu ils expriment Dans un deuxi me temps il pr sente une s rie de techniques comme la classification automatique de documents le rep rage de subjectivit et le clustering adapt es aux donn es REX visant r pondre ces besoins pr sents et venir sous forme d outils en support l activit des experts Abstract This article presents a series of natural language processing NLP techniques applied to the domain of industrial risk management and the analysis of large collections of textual feedback data First we describe the socio political aspects of the risk mangement domain the activity of the investigators working with this data We then present present a
14. ace pr conise le signalement de tout v nement potentiellement dangereux Or on note que dans les faits sont signal s une multitude d v nements de routine des d rapages de tous les jours comme par exemple des chocs avec des oiseaux au d collage pour les pilotes d avion qui finalement sont de peu d int r t pour l expert en s curit relativement longue entre le moment du premier signalement d un changement et le jour o ce changement de vient r alit au point de menacer l activit de l entreprise on peut observer une amplification de l intensit du signalement Inversement la marge de man uvre dont dispose l entreprise diminue au fur et mesure de cette p riode 24 Caract ristiques des donn s Les donn es sur lesquelles nous travaillons proviennent de bases de donn es diff rentes mises notre disposi tion par des instances r gulatrices de l aviation civile nationales et europ ennes ainsi que par divers industriels dans des secteurs risque transports industrie chimique etc A l heure actuelle notre corpus contient plusieurs dizaines de milliers de documents crits en anglais et en fran ais et cro t constamment La plupart des documents sont crits dans un langage tr s technique propre au secteur d activit Abondant d acro nymes de termes techniques de chiffres de mesures ces textes pr sentent en r gle g n rale des caract ristiques comme une variation le
15. ations devient une t che fondamentale et tr s difficile Les politiques de retour d exp rience REX mises en place dans les sec teurs risque t moignent de ce besoin vital Les REX visent pr cis ment ce recueil syst matique d information le plus souvent sous forme de compte rendus crits et sa plus ou moins libre transmission toute la hi rarchie organisationnelle Une fois recueilli le REX doit tre correctement exploit afin d identifier les sources de risques Ceci est le r le des experts en s ret nos principaux interlocuteurs dans le cadre de cette recherche Leur travail consiste analyser des v nements anormaux survenus dans un secteur d activit donn et relat s des incidents quasi accidents et accidents et en se basant sur ces v nements d mettre des recommandations ad quates afin que ces m mes v nements ne se reproduisent plus dans le futur Or souvent compte tenu de l chelle des op rations des politiques de recueil de REX de plus en plus d velopp es et de la multiplications des canaux de partage d informations li s la s ret entre institutions les experts se trouvent face une quantit de donn es h t rog nes qui deviennent difficilement ma trisables de fa on traditionnelle codage manuel et statistiques classiques De plus actuellement nous assistons une volution dans le concept m me de gestion de la s ret les acteurs sont incit s adopter une strat
16. d ac cidents a ronautiques s rieux 12 Une d monstration de cet outil sur des donn es d incidents a ronautiques est disponible l adresse suivante http slow start org safetyDataDemos timePlotASN main cgi The captain s failure to attain a proper touchdown on runway and his subsequent failure to perform a go around both of which resulted in a runway overrun Fac tors were the company s inadequate dispatch procedures with their failure to provide all NOTAMS for the airport to the flight crew and the snow covered run way o o bo en 909 9 t 880 EE 06 00 1945 1950 1955 1360 1965 1970 1975 1980 1985 1990 1995 2000 2005 FIGURE 2 v nements similaires sur un axe temporelle Comparons deux documents au document source l un datant du 24 01 2007 indiqu par relativement similaire 0 35 en gras nous avons mis les mots partag s The copilot s failure to maintain the proper airspeed and failure to obtain the proper touchdown point and the pilot in command s inadequate supervision which resulted in an overrun Contributing to the accident was the PIC s failure to activate the speed brake upon touchdown and the snow contaminated runway et le deuxi me datant du 14 09 2007 indiqu par b un peu moins 0 15 The pilot s failure to initiate a missed approach and his failure to obtain the proper touchdown point while landing in the rain Contributing to the accident were the operato
17. d levels of education Psychology Plans Human factors Human Machine Interaction Judg e been ations Fast pace of Mechanical technological Chemical Action change and Electrical Engineering Hazardous process FIGURE 1 Composantes d une activit humaine intervenant dans le fonctionnement d un processus dangereux 2 2 Utilisation du REX Avoir acc s aux informations ne signifie pas qu elles seront automatiquement mises contribution l am liora tion de la s ret Nous somme rapidement arriv s une tape o la quantit d information accessible d passe les capacit s d analyse humaine De plus puisque l information provient le plus souvent de sources diff rentes cha cune avec sa propre culture vis vis du recueil du REX les informations peuvent tre tr s h t rog nes du point de vue de leur format bases de donn es fichiers MS Excel MS Word etc Afin de servir de support d analyse ces donn es doivent tre converties en un format commun Dans le cas de l aviation ou le r cit d un v nement est accompagn d un vaste ensemble de m ta donn es relatives par exemple au type d appareil aux conditions m t orologiques donn es g ographiques etc un effort de standardisation est en cours en Europe pilot par la Commission Europ enne et visant tablir un tel format et un support logiciel pour son exploitation l environ nement ECCAIRS en est le fruit V ritable boi
18. gie proactive autrement dit s affranchir de l analyse a posteriori post accidentelle et identifier des risques latents avant qu ils ne m nent un accident majeur Cette d marche de pr vention met l accent sur l importance des v nements mineurs qui peuvent contenir des indications sur une catastrophe venir On le savait C tait dans nos bases Nous sommes juste pass s cot entend on dire les experts le plus souvent sous anonymat la suite d un drame industriel Le but de nos recherches associant ergonomie et traitement automatique des langues TAL est donc de proposer des outils permettant d abord un acc s facilit aux contenus des bases de REX et dans un deuxi me temps des m thodes automatiques d identification de risques mergents et de pr curseurs de situations risque Ce projet pluridisciplinaire doit donc dans un premier temps identifier les besoins pr cis exprim s par les experts en s ret expliciter le contexte dans lequel s inscrit leur activit notamment les flux d information et les contraintes politiques et sociales qui lui sont associ s Dans un deuxi me temps ces besoins seront traduits en une s rie de propositions op rationnels des m thodes d analyse automatique ainsi que des traitements et algorithmes terme l aboutissement sera une s rie d outils destin s venir en support l analyse de bases de REX dans une perspective d une meilleure ma tr
19. i t CFH avec les organismes r gulateurs nationaux et europ ens 3 2 Analyses de similarit et param tre temporel Une autre piste de recherche que nous avons entreprise en utilisant de m thodes issues de la recherche d informa tion RI consiste identifier automatiquement des v nements similaires et d tudier leur comportement dans le temps Les exemples ci dessus sont issus d une base d analyses d accidents a ronautiques de 1943 nos jours accessible au public Apr s un tri sur la longueur des textes afin de ne pas inclure des rapports sans texte ou avec tr s peu de contenu le corpus contient environ 14000 documents crits en anglais La premi re tape est de calculer automatiquement un score de similarit pour une paire de documents donn e En se basant sur les termes que les documents partagent nous utilisons la similarit cosinus m trique classique en RI pour attribuer un score compris entre 0 et 1 chaque paire de documents dans la collection Un score de 0 signifie une absence de termes en commun et un score de 1 une identit compl te Ce score est obtenu en calculant le cosinus entre deux vecteurs dans un espace n dimensions d termin es par le nombre de termes dans la collection Chaque document est repr sent par un vecteur en fonction des termes qu il contient Voici le processus en d tail D abord afin de r duire la variation morphologique nous proc dons une lemmatisation
20. ise du risque Cet article est organis comme suit Dans un premier temps nous ferons un tour rapide sur le concept de risque industriel en nous concentrant notamment sur les derni res volutions dans le domaine qui placent de plus en plus l accent sur le r le de l organisation dans son ensemble Parall lement nous mentionnerons les volutions politiques et sociales intervenues r cemment dans certains secteurs d activit qui ont un impact direct sur la nature de notre objet d tude le REX Dans un deuxi me temps nous d crirons le travail des experts en s ret et leur rapport avec l information du REX Ayant ainsi tabli le contexte g n ral nous allons nous tourner vers les sciences de gestion et le concept de signal faible que nous adapterons notre probl matique Dans la deuxi me partie de cet article nous pr senterons un ventail de m thodes et techniques de TAL que nous adaptons notre mat riau textuel et aux besoins exprim s Ces recherches venant tout juste de commencer sont encore pour la plupart un stade inachev et fortement exploratoires stade o nous cherchons encore valider la pertinence des techniques par rapport aux besoins des experts Nous commencerons par l activit la plus aboutie ce jour la cat gorisation automatique d v nements Ensuite nous pr senterons l approche d analyse de similarit encore en travaux mais dont les premiers r sultats sont encourageants Dans
21. le support de r f rence est signal bien avant que ceci ne devienne r alit Au d but on peut imaginer des publications scientifiques qui d crivent la possibilit de stockage d information sur un support optique Ensuite un brevet est d pos pour ce nouveau support Encore plus tard on commence rep rer des publications dans la presse sp cialis e parlant d un nouveau support qui vient d tre invent suivies de publications dans les m dias g n ralistes et ainsi de suite Une progression dans la visibilit du signal est clairement perceptible et l entreprise doit en tenir compte afin d viter toute surprise 10 http www ims uni stuttgart de projekte corplex TreeTagger DecisionTreeTagger html Ainsi la phrase Vers 200ft d viation de l1 avion vers la gauche de la piste puis retour sensible 200ft alarme autoland Est repr sent e par des s quences comme lt mesure gt avion gauche piste d viation d viation avion d viation gauche d viation avion gauche d viation piste d viation avion piste Un classificateur est ensuite entra n sur la base des corr lations entre les s quences extraites et les cat gories sugg rer voir Hermann et al 2008 pour une explication an d tail qu ont ces termes appara tre dans un rapport cod dans une classe donn e Cette activit de codification automatique est l heure actuelle op rationnelle dans le cadre de la collaboration de la soc
22. nt utilis dans le secteur a ronautique 1 Prenons un exemple de tous les jours Une famille acquiert une nouvelle friteuse nouvel quipement Lors de la premi re utilisation le mari op rateur n ayant pas lu le manuel d utilisation introduit brusquement les pommes de terre fra chement coup es dans l huile tr s chaude op ration L accident survient imm diatement L huile bout et s chappe de l appareil v nements redout Apr s avoir nettoy sa cuisine r cup ration il fait part de son exp rience aux autres membres de la famille REX en les incitant ne pas introduire les pommes de terre rapidement dans l huile trop chaude recommandation 2 Sinon pour dire que le consensus est qu il n existe pas d activit humaine sans erreurs la plupart du temps r cup r es par l op rateur lui m me ces coll gues ou des automates Research vernment Environmental Discipline j S Public Judg tresso q Safety reviews Opinion me Accident Political Science Analyses B Law Economics Changing political Sociology ws Regulators climate and Associations public awareness Judg Incident ment Reports Economics Decision Theory PR pe aa izati egulations r n Changing market e conditions Judg Operations and financial ment Reviews pressure Industrial Engineering Company Management Management amp Policy Organization ida Changing gs amp Judg work Reports competency T an
23. ous sommes in t ress une autre particularit de certains donn s REX ceux r dig s par les op rateurs eux m mes le statut particulier de la place de l auteur dans le texte Nous avons remarqu que certains textes taient plus motion nellement charg s que d autres Au del de produire un simple r cit neutre d un v nement certains auteurs expriment des tats motionnels tels que le stress le doute la col re et la peur Clairement identifiables d un point de vue linguistique ces tats sont de v ritables indicateurs de situations potentiellement risque 1 De plus ayant identifi un risque r current et frustr s par sa non prise en compte les acteurs manifestent souvent leur m contentement dans leurs crits Actuellement en particulier gr ce au d veloppement du web 2 0 les travaux sur le th me du rep rage automa tique d opinion et d tats motionnels connaissent un d veloppement spectaculaire et de nombreuses techniques innovantes voient le jour Pang amp Lee 2008 S inspirant de certains travaux sur la subjectivit nous employons une vari t de traits lexicaux adverbes axiolo giques pronoms la premi re personne etc syntaxiques emploi du conditionnel et typographiques l que nous 17 Les pilotes par exemple font parfois part d un doute ou encore d une incompr hension d une situation dans laquelle ils se sont trouv s Or la ma trise totale de la situation
24. pplications of NLP techniques like automatic text classification clustering and opinion extraction responding to different needs stated by the investigators 2 Mots cl s REX rapport d incident risque s ret industrielle signaux faibles classification automa tique clustering recherche d information similarit subjectivit Keywords risk management incident report industrial safety weak signals automatic classification information retrieval similarity clustering subjectivity 1 Introduction Dans toute industrie hautement technologique un incident peut avoir des cons quences d sastreuses provoquer des pertes mat rielles consid rables des d g ts environnementaux ou pire co ter des vies humaines La com plexit de chaque op ration leurs intrications et la multiplicit des facteurs diff rents intervenant dans le fonction nement de ces industries rendent les risques toujours pr sents et am nent les acteurs op rateurs d velopper des strat gies de gestion de la s ret des op rations Avoir une vision d ensemble sur l tat du syst me tout moment est crucial pour toute d marche de ma trise du risque et lorsqu il est question de macrosyst mes techniques de l chelle d une compagnie a rienne ou p troli re d une centrale nucl aire ou encore un niveau sup rieur d un secteur d activit tel que le transport a rien acqu rir des informations venant du plus pr s des op r
25. r s lack of standard operating procedures and the inadequate maintenance of the windshield Nous pouvons voir comment la notion de similarit traduit un degr de ressemblance entre les deux v nements comme le document source les deux traitent d atterrissage rat s mais uniquement l v nement plus similaire mentionne des pistes enneig es Une entrave potentielle l utilisabilit de cette approche par similarit est le besoin de faire une requ te autrement dit de s lectionner un document une manifestation du paradoxe de M no l dont les experts en s ret craignant de biaiser leur analyse en faisant des pr suppos s nous ont fait part De ce fait nous envisageons de faire voluer ces approches en employant des techniques d apprentissage non supervis afin de faire merger des regroupements naturels d v nements similaires Ces techniques dites de clustering voir Srivastava amp Zane Ulman 2005 pour un exemple sur des donn es textuelles de type REX permettent de s affranchir de la requ te bas e sur le contenu des documents regroup s comme mode d acc s et ouvrent la voie tablir d autres types de requ tes Une piste que nous envisageons peu explor e jusqu maintenant est celle du profilage chronologique voir Matthews et al 2010 pour un exemple d un outil semblable destin des archives de presse Une fois obtenus les clusters de 13 Meno demande Socrate comment quelqu un
26. s de compr hension de perception ou des lacunes dans les comp tences mentionn s par les r dacteurs 4 Conclusion Nous venons de pr senter nos travaux sur l analyse automatique de bases de REX Le domaine de la s ret industrielle l analyse et l exploitation des donn es textuelles issues de ces bases repr sentent un champ qui notre connaissance n a jamais b n fici de solutions utilisant des m thodes du TAL m thodes que nous venons de d montrer peuvent r ponde une s rie de besoins exprim s dans ce secteur De plus nous sommes convaincus que compte tenu de la dynamique actuelle incitant d un cot l accroissement de la production de donn es tout autant que leur partage entre institutions les besoins d outils sp cialement adapt s se sentiront davantage Pour le TAL un nombre de nouveaux d fis se pr sentent Un large ventail de techniques d j connues devra tre adapt ce nouveau mat riau bien particulier Des aspects comme le flux constant de nouveaux documents et le langage tr s sp cialis mais aucunement contraint dans lequel sont r dig s la plupart d eux doivent tre pris en compte Enfin le param tre temporel tant essentiel pour la ma trise du risque dans un contexte dynamique doit galement occuper une place centrale dans toute approche visant automatiser une partie de ce processus d exclamation ou d interrogation 19 nous utilisons le lexique de l
27. t de m thodes quantitatives la principale difficult porte sur la transformation des donn s textuelles symboliques et qualitatives en une s rie de scores num riques Nous nous baserons pour cela sur les travaux en recherche d information domaine qui rencontre les m mes difficult s Parmi eux certains comme Arampatzis et al 2000 proposent des m thodes automatiques linguistiquement motiv es qui visent ma triser la variation inh rente au langage naturel variation lexicale morphologique syntaxique voire s mantique afin d atteindre un niveau sup rieur d abstraction et par cons quent de produire des scores de similarit plus pertinents scores pr cis ment sur lesquels se basent la majorit des techniques de d tection d anomalies Lors de quelques exp riences autour du clustering classification hi rarchique ascendante CHA McQuitty 1966 plus pr cis ment inspir s des travaux de Ah Pine ef al 2005 nous avons pu valider l int r t et la faisabilit de ces techniques pour le rep rage des v nements anormaux Voici une esquisse de cette m thode Partant d une matrice de similarit un algorithme regroupe progressivement les documents les plus similaires pour former une hi rarchie de partitions binaires incluses les unes dans les autres Plus on monte dans la hi rarchie plus les regroupements sont g n rales plus on descend plus le crit re implicite de regroupement est sp cifique Les v
28. t par ce fait int ressants pour une analyse approfondie Cette exp rience petite chelle validant la faisabilit de la m thode nous sommes actuellement en train d explorer davantage cette voie en vue d un passage l chelle en traitant des bases enti res 14 Nous avons r cemment rencontr ce cas de figure lors de la d monstration de ces outils aux industrielles dans une grande usine chimique On voyait clairement les v nements concernant le incidents dus aux projections re ues dans les yeux en forte baisse depuis 2007 ce qui d apr s notre interlocuteur refl tait l effet positif de la campagne de sensibilisation au port de lunettes de protection entreprise cette m me ann e 15 Une remise de gaz est une proc dure d urgence tr s courante lors de laquelle les pilotes d cident au dernier moment d avorter un atterrissage et de refaire un tour de l a rodrome et une deuxi me tentative d atterrissage 16 http www r project org 100 1 60 1 Height i J 40 L FIGURE 3 Dendrograme des r sultats de la CHA 3 4 Analyses linguistiques fines et pr curseurs de situations risque Parall lement aux m thodes bas es sur l ensemble des donn es mentionn es ci dessus nous n
29. te outils destin e l expert en s ret ECCAIRS propose en plus d un format facilement changeable un ensemble de fonctionnalit s comme un langage de requ te un navigateur sp cialis etc Un des tapes cl s lors de l analyse d un v nement nouveau est sa codification un proc d visant attribuer un v nement un ensemble de codes correspondant ses diff rents facettes le type de l v nement e g sor tie de piste choc avec un oiseau etc des facteurs d environnement d crivant l v nement conditions m t o d favorables panne d un quipement etc des facteurs contribuant l explication de l v nement fatigue de l op rateur m connaissance d une proc dure etc En tout une liste de plusieurs milliers de valeurs organis es en une s rie de taxonomies tablies par l organisation de l aviation civile internationale OACT lors d un effort de standardisation de l analyse d incidents en a ronautique Une fois codifi un rapport peut tre stock dans une base et est r utilisable par la suite Cependant puisque le contexte est en perp tuelle volution le sch ma de co dification doit tre constamment mis jour 3 Des m thodes de classification automatique peuvent venir en aide 3 European Coordination Centre for Accident Incident Reporting Systems http eccairsportal jrc ec europa eu 4 Le sch ma de codification ADREP actuelle est disponible ce
30. ts du REX Aujourd hui il existe un consensus total sur la n cessit de tirer des le ons d v nements pass s de dysfonc tionnements accidents incidents ou tout autres carts au fonctionnement normal Le REX que nous pouvons d finir comme toute formalisation d un v nement pass remplit ce r le de vecteur d informations A une petite chelle lorsque peu d acteurs sont impliqu s ce processus est trivial mais l chelle d un macrosys t me technique tel que par exemple l aviation civile au niveau europ en impliquant des centaines de milliers d individus des centaines de compagnies a riennes et une vingtaine de gouvernements utiliser et faire circuler l information devient une entreprise monumentale mais n cessaire si l on veut prendre en consid ration tous les facteurs pouvant intervenir dans la gestion du risque et adopter une approche globale envers sa ma trise La figure n 1 extraite de Rasmussen 1997 illustre la complexit d un macrosyst me technique risque et la mul titude de forces ayant un impact sur la s ret impliqu es diff rents niveaux allant des op rateurs interagissant avec des machines techniciens pilotes etc passant par les syndicats le management les diff rents organismes r gulateurs jusqu aux gouvernements Particuli rement int ressants pour nous sont les flux d information dans cette hi rarchie L un vident est le flux descendant l
31. tte adresse http www icao int anb aig Taxonomy 5 Les perturbations du transport a rien en 2010 dues l ruption d un volcan en Islande ont naturellement amen s au rajout d une s rie ces proc d s de codification voir infra 2 3 Vis e proactive contexte dynamique et signaux faibles Lors des investigations de v ritables accidents les experts cherchent identifier les causes dites primaires de ces derniers Il s agit dans la plupart des cas d une configuration particuli re d v nements ou d tats souvent clairement identifiables et signal s bien avant que l accident lui m me se produise 6 Partant de ce constat au cours de la derni re d cennie d importants efforts ont t faits afin de d passer la gestion du risque a posteriori et de se positionner dans une v ritable d marche proactive L attention est port e non pas sur un accident qui s est produit mais un tat des choses potentiellement dangereux une catastrophe future que l on peut viter la lumi re des informations que nous avons aujourd hui Ainsi les experts en s curit sont de plus en plus sollicit s pour traiter des gros volumes d informations relatives la s curit traitant de faits pouvant para tre peu importants chacun isol et en se basant sur leur connaissance du domaine faire des rapprochements entre ces faits et d celer des risques cach s Parall lement les acteurs pilotes m caniciens op
32. ttente 71 rien n est fait avec une r ception 1 5 nous poussons la fin je suis oblig de demander 3 fois qu il se d branch t me fasse signe Manifestement la liaison est d faillante dans les deux sens alors que le casque du m cano X fonctionnait parfaitement FIN ASR En cas de probl me lors du P B l quipage n a aucune chance de comprendre ce qu il se passe Pourquoi cette inertie on se contente de me dire yes ok et rien ne se passe Faut il un accident pour que l escale de Y se conforme au r f rentiel Quant la qualit de mat riels Cet exemple montre plusieurs indices refl tant un tat motionnel du r dacteur sur lesquels nous nous basons pour classer ce document comme tant subjectif emploi de la premi re personne emploi de constructions verbe modal peut pousser emploi de mots valuatifs n gatifs 19 d faillante inaudible probl me qualit etc emploi de certains verbes refl tant des tats cognitifs enser tonner emploi de signes de ponctuation r p t s Cette cat gorisation unidimensionnelle sur l axe subjectif objectif n est que la premi re tape de cette facette de nos recherches Par la suite nous chercherons tablir un sch ma de cat gorisation plus fine et tre capables de rep rer s par ment des tats tels que le stress le doute mais aussi des cas de figure comme des erreur
33. xicale relativement faible peu de polys mie et une absence de constructions syntaxiques labor s Il s agit de documents courts la plupart ne d passent pas les 500 mots Nous sommes en train de d velopper une grille de cat gorisation fine de ces textes qui sera pr sent e dans une prochaine publication 3 Analyses automatiques de bases de REX Dans cette deuxi me partie nous pr senterons quelques diff rents applications de m thodes issues du TAL aux donn es REX 3 1 Cat gorisation automatique d v nements Nous avons vu que la codification des v nements est une tape cruciale de leur analyse et permet leur r utilisabi lit par la suite Or dans la r alit cette t che est effectu e de mani re insatisfaisante pour plusieurs raisons Vu la complexit des sch mas de codification contenant plusieurs centaines de classes les codeurs attribuent souvent la classe la plus probable sans v ritablement rentrer dans les d tail Les efforts de standardisation des bases de REX tant relativement r cents nous disposons de vastes quantit s d v nements pass s qui n ont jamais t cod s mais qui pr sentent un int r t pour des campagnes d analyse d aujourd hui Parall lement puisque les sch mas de codification voluent et ce en r gle g n rale apr s qu un certain nombre d v nements de type nouveau soient survenus de fa on justifier cette volution il est n cessaire de les identifier
Download Pdf Manuals
Related Search
article article furniture articles articles of incorporation articles of organization articles of confederation article 15 article 92 article 92 ucmj article summarizer article 2 of the constitution article 134 ucmj article 1 of the constitution articles of association article 19 articles of organization llc articles of confederation definition articles in english articles of organization nc articles exercises articles of incorporation ny articles of organization florida
Related Contents
第3回会議録第2日 iBorescope User Manual Sharkoon Rebel9 Value Projetor digital DX70i Guia da operador Fronius Power Control Card [42,0410,1850] Samsung ME6124ST Manual de Usuario Accepter le télétravail : mode d`emploi Serie VS-606V7 Manual de instrucciones Copyright © All rights reserved.
Failed to retrieve file