Home

Développement d`outils informatiques appliqués aux biotechnologies

image

Contents

1. contenter des erreurs induites par l algorithme de d tection d imageJ Chapitre 2 Mesure semi automatique de la surface de racines 18 Fonctionalit s ajouter Deux fonctionnalit s d j pr sentes au sein d imageJ seraient int ressantes ajouter l ap plication 1 Un zoom qui permettrait de travailler sur des images avec une r solution lev e bien que pour l instant effectuer des mesures extr mement pr cises n est pas l ordre du jour on se contente en effet de faire des comparaisons entre racines 2 Un syst me de calibration en ajoutant un r glet c est dire un talon la photo le plugin d imageJ r alisant l analyse de particules peut le prendre compte apr s avoir indiqu l aide d un segment que dessine l utilisateur sur l cran la mesure d 1cm par exemple Les r sultats de calculs d aire ne seront alors plus exprim s en pixels mais en cm Chapitre 3 Maintenance et mise a jours d une application web 3 1 Contexte La culture des oliviers est un des secteurs pr pond rent de l agriculture andalouse en ef fet les conditions m t orologiques y sont particuli rement propices et la composition du sol favorable C est pourquoi une demande technologique d aide la d cision en termes d irri gation et d additifs nutritifs peut cro tre de mani re importante C est la raison d tre du service produit GIO de NBT
2. laboration d un mod le UML de la plateforme d analyse de s quences et montrer que c tait un l ment cl pour la maintenabilit de l application et une aide pr cieuse la conception de celle ci Ce mod le s est av r d ailleurs utile pour la simplification de l attribution des t ches dans le contexte d un travail en quipe notamment la fin de mon s jour lorsqu un nouveau stagiaire a t embauch afin d tendre la plateforme par le d veloppement d un nouveau module 5 3 Travail r alis Sur un plan g n ral plusieurs t ches d administration de syst mes m ont t attribu es au cours de ce s jour comme par exemple la migration vers linux d un certain nombre de machines de l entreprise et la formation rapide de mes coll gues l utilisation de la suite bureautique openoffice et l utilisation d un client mail diff rent de OUTLOOK J ai eu aussi a r soudre des probl mes li s au r seau local et la coop ration entre les syst mes d exploitation Linux Mac OS X et diverses version de Windows Une des r alisations techniques est une application Java fond e sur IMAGEJ r alisant la segmentation d une photo de plusieurs racines de plantes afin de mesurer leur croissance Cette application est effective et donne des r sultats int ressant car le gain de temps dans l analyse de ces photos est notoire J ai r alis des documents permettant de mainteni
3. Cette application constitue donc le coeur du service de gestion int gr e de l Oliveraie Elle est caract ris e par ce qu on appelle une application web se situant dans le cadre des applications informatiques trois tiers En d autres termes elle se d compose en trois couches communicantes par change de services 1 un serveur de bases de donn es les donn es sont stock es dans une base POST GRESQL et acc d es via des requ tes SQL 2 un serveur d application middleware c est dans notre contexte un conteneur d ap plications web TOMCAT Il constitue en quelques sortes un serveur Web am lior car en plus de diffuser des pages Web il peut aussi ex cuter du code JAVA afin d interagir avec l utilisateur au sein de pages JSP et de cr er ces pages dynamiquement 3 le client peut tre vu sous diff rents angles sous un c t plus humain on peut consid rer que c est la personne se situant derri re son navigateur web consultant les pages de l application C est l entit demandeur de ressources L application se d compose au niveau interface homme machine en deux parties Une permettant l administrateur de la faire fonctionner l autre permettant l utilisateur de souscrire au service en s enregistrant et en caract risant ses parcelles le plus pr cis ment possible Techniquement ces pages sont r alis es l aide des technologies JSP Servlet
4. tabSeq TableDescSeq stmtDesc Statement stmtFasta Statement stmtID Statement ConnectorBD url string login string pass string setConnectionOpened void setConnectionClosed void getTableDesc minID int maxID int s Source tableDescSeq getConn Connection host string port string user string lt lt use gt gt pass string group string module string task string constructor all get operations addSeq s descSeq removeSeg s descSeq title string lt lt use gt gt host string User string pass string si db string ss DescSeg 1 table string ID_uniseq int J id string uniseq_desc string lt lt use gt gt desc string resProcessed boolean seq string DescSeq id int desc String BlastGridder constructor all get operations getID int getDesc string isProcessed boolean host string port int Destination title string login string host string setProcessed pass string user string print tabSeq TableDescSeq pass string BlastGridder host port db string BlastGridder g Grid t TableDescSeq gt Thread table string run void constructor all get operations HSPSummary score id string expectValue 7 ResParse idES
5. indice del pixel coriente creacion de la imagen de salida de tratamiento ImagePlus inverted NewImage createByteImage Invertida int ip getWidth int ip getHeight 1 NewImage FILL_WHITE ImageProcessor inv_ip inverted getProcessor inv_ip copyBits ip 0 0 Blitter COPY byte pixels bytel inv_ip getPixels ahorra estamos trabajando sobre los pixeles de la imagen de salida parsing of the Region of Interest y Processing of the pixel for int i roi y 5 i lt roi y roi height i 4 offset i w for int j roi x j lt roi x roi width j pos offset j pixels pos byte 255 pixels i inverted show inverted updateAndDraw fin del run fin del plugin FIG 2 3 plugin r alisant l inversion d une zone pr d termin e de l image 13 Chapitre 2 Mesure semi automatique de la surface de racines 14 les packages importer Il s agit du package ij pour pouvoir manipuler les objets de base d IMAGEJ ij gui NewImage pour pouvoir cr er de nouvelles images ij process pour les objets de types image processor qui seront d taill s par la suite ij plugin filter PlugInFilter correspond l interface qu il faut impl menter pour un plugin IMAGEJ On importe galement le package java awt pour manipuler des objets graphiques disponibles avec JAVA la classe du plugin Elle doit comme indiqu pr c
6. mettre en oeuvre dans ce type de syst mes on doit tre capable d acc der une base de donn e y effectuer des requ tes et des mises jour manipuler des structures de donn es complexes comme des rapports de comparaison de s quences g nomiques traiter des flux XML ventuellement proposer une interface via le Web par des pages ou une applet ou une interface graphique ind pendante Par ailleurs les traitements des s quences par chaque agent sont effectu s de mani re ind pendante Les r sultats apparaissent alors de mani re asynchrone On doit donc tre galement capable de g rer et synchroniser des processus parall les comme ceux traitants les r sultats Le panel est donc relativement tendu Voici les raisons qui m ont fait opter pour JAVA portabilit le parc des machines de NBT est relativement h t rog ne richesse de fonctionnalit s permet de r aliser simplement des acc s des bases de donn es par des ponts JDBC pr sence de nombreuses biblioth ques de fonctions pour le traitement de flux XML gestion des threads facilit de synchroniser les thread et verrouiller par exclusion mutuelle les donn es partag es par exemple la table de descripteurs de s quences utilis e tout au long du processus Le mod le figurant en annexe C 2 a permi d envisager le d veloppement d autres type de traitements de ces
7. EJB Je me suis docu ment ce sujet et ils permettent de d velopper plus ais ment les parties ayant trait aux sessions utilisateurs la gestion des bases de donn es associ es la s curit Mais ceci sous entend un travail relativement lourd de refonte compl te de l application Un autre th me int ressant et plus facilement r alisable serait de travailler sur un for mat d change de donn es m t orologiques bas sur les technologies XML afin de faciliter l change de donn es structur es en d finissant par exemple un sh ma XSL mod lisant la structure de telles donn es Le probl me se posera effectivement le jours o l INM changera sa fa on de pr senter les donn es m t orologiques l heure actuelle sous forme de fichiers au format MICROSOFT EXCEL 97 Il faudrait par ailleurs entrer en contact avec INM afin indication textuelle qui s affiche en fonction de la zone survol e par la souris Sau format MICROSOFT EXCEL SINM instituto nacional de meteorologia Tobjet Java respectant les sp cifications de Sun sous cette forme il devient un composant r utilisable 8 Java Database Connectivity Chapitre 3 Maintenance et mise 4 jours d une application web 22 de savoir s ils ne travaillent pas d j avec les technologies XML Les r sultats de projections sont affich s dans des tables HTML qui ne sont pas destin es tre imprim es sur du papier au format A4 En
8. Il se pr sente sur la forme d une archive jar qui comporte toutes les biblioth ques de fonctions 4 4 Plateforme logicielle BLASTONAGRID Cette section pr sentera les grandes lignes du fonctionnement de la plateforme On se situe dans le cadre d un nombre massif de donn es traiter Comme mentionn pr c dement NBT coordine un projet internationnal de g nomique fonctionnelle TRICHOEST Les don n es issues du s quencage de l organisme Trichoderma repr sentent maintenant quelques 11 si par exemple un serveur tombe en panne est victime d une coupure de courant ou se trouve deconnect ou teint par m garde 12 e serveur attribue en fonction du syst me d exploitation de agent l ex cutable joindre au paquet l3que l on appelera aussi micro t che si on se place au niveau du serveur ayant une vue globale de la tache en cours terminologie InnerGrid Chapitre 4 Comparaison r partie de s quences g nomiques 30 25000 s quences sur lesquelles il faut appliquer des comparaisons avec des bases de donn es gigantesques qui permettent par valuation de leur similarit avec les s quences connues de d terminer leur fonction La figure 4 3 de la page 31 illustre le processus de traitement FIG 4 3 Les donn es issues du s quencage sont enregistr es dans une base de donn e trait es localement et les r sultats sont eux aussi enregistr dans une base de donn e
9. NBT est une entreprise knowledge intensive d di e principalement la recherche scientifique au d velop pement technologique et l innovation L quipe hautement qualifi e est constitu e de 23 salari s effectifs dont six Docteurs et dix licenciados et des collaborateurs externes quatre conseillers scientifiques de haut niveau un directeur commercial et marketing un conseiller en propri t industrielle et brevets biotechnologiques et des stagiaires de recherche De plus l entreprise conserve une collaboration avec plus de 45 groupes appartenant des centres publics de recherche constituant un r seau de recherche et d veloppement dans lequel fi gurent plus de 200 scientifiques Les activit s de NEWBIOTECHNIC sont particuli rement centr es sur les domaines de Valimentaire et de l agriculture NBT est impliqu e dans divers projets de recherche et de veloppement pour l laboration d outils microbiologiques et mol culaires dans les domaines de l agronomie am lioration des rendements de production agricole applications phyto sanitaires nouvelles alternatives aux outils agro chimiques additifs risques limit s pour l industrie alimentaire L objectif principal de ces projets est l identification de march s et le transfert de solutions innovatrices dans ces domaines 1 2 Produits et Technologies Les produits et services comercialis s par NBT s organisent
10. biologique On dit que c est un support stable et transmissible de l information g n tique Par la suite afin de synth tiser une prot ine un fragment de cet ADN que l on appelle commun ment un g ne est transcrit en ARN messager puis va s associer au ribosome ARNr permettant lqui a t pr sent en section 2 1 1 de la page 8 2pour Expressed Sequence Tag 3co d couvreur de l ADN Chapitre 4 Comparaison r partie de s quences g nomiques 24 la synth se des prot ines On voit donc clairement trois tapes sh matis es en page 25 Prot ine R plication Transcription Traduction FIG 4 1 dogme central de la biologie mol culaire ADN acide d soxyribonucl ique mol cule en forme de double h lice C est le mat riel h r ditaire qui se transmet pour un organisme de g n rations en g n rations Cette mol cule constitue le langage r gissant la synth se des prot ines Il est complexe mais son alphabet est simplet Il comporte quatre unit s lexicales si on reste avec une vision langage ad nine A cytosine C guanine G thymine T Si on d roule virtuellement cette double h lice la mol cule se pr sente alors comme 2 s quences de nucl otides superpos es ces derni res tant li es deux a deux A T et G C On peut donc d duire d une branche sa duale C est un m canisme qui permet la r plication conforme I n y a pas de perte d information si on
11. entrevoir les principales fonctionnalit s de application et les possibilit s d interaction offertes l utilisateur ra AA as Ayuda Abrir Abrir Resultados Resultados Guardar los contornos Guardar los _ Guardar los contornos Salir lv Vincular las imagenes X Cuantificacion de Raices AAA Tabla de resultados Numero Area pixels Porc imagen Tamafio relativo 1915 0 12 12 91 54 11537 0 1 z 173 47 2092 0 2 32 100 0 11548 0 1 72 74 0 Guardar tabla Cerrar y Calcular las areas Ajustes por defecto calculo del umbral calculo del umbral earn OEA 136 tama o minimo de una raiz V es Tam FIG 2 5 IHM de l application de quantification de croissance de racines En voici une succinte description affichage La fen tre principale est divis e en trois zones principales la zone sup rieure comporte des boutons pour contr ler l application la zone m diane se charge d affi cher dans deux composants JPanel l image avant et apr s traitement leur d filement peut tre li afin de voir la correspondance entre les deux images si on veut contro ler la d tection des contours des racines la zone inf rieure est constitu e par deux JScrollBars qui permettent de contr ler les param tres du traitement contr le du traitement il s effectue l aide de boutons qui sont selon le contexte inactifs d un
12. ils vont de API de INNERGRID NITYA fournie par Gridsystem l exploitation de Blast Java JDBC MySQL BioJava Swing UML et la galaxie XML En reconsid rant le sch ma de la figure 4 3 il est possible de donner plus de pr cisions sur l infrastructure et les traitements qui feront l objet de la suite de cette section qui s organisent naturellement en 3 parties Pr Traitements Les s quences dont la fonction est inconnue sont stoqu es dans une base de donn e et seules les s quences interessantes sont crites localement sur le disque Traitements Ces s quences sont compar es la totalit d une base de donn es regrou pant des s quences connues avec le logiciel Blast Post Traitements Les r sultats rendu par Blast sont alors pars s afin d extraire les donn es interressantes et ces derni res sont alors stoqu es dans la base de donn es Chapitre 4 Comparaison r partie de s quences g nomiques 31 4 4 1 Pr traitement des donn es Parmi la masse de s quences 4 traiter il s agit de rappatrier celles qui nous int ressent Elles proviennent d un syst me de gestion de de suivi d chantillons qui permet entre autre leur stockage dans une table d une base de donn e MySQL Afin de rendre BLASTONAGRID ouvert et facilement d ployable au sein d autres in frastructures informatiques trois objets de configuration ont t cr s Ils permet
13. informatique intervient dans un produit service commercialis par NBT permettant la gestion int gr e de l oliveraie GIO Il se pr sente cot utilisateur et administrateur sous la forme d une interface web permettant de piloter l application Elle fera l objet du chapitre 3 L informatique intervient aussi dans tous les probl mes d analyse de r sultats d exp riences biologiques comme par exemple lors de la quantification de la croissance de plantes afin de d terminer les effets d additifs nutritifs par exemple Cette mesure s effectue par analyse d images et fait l objet du chapitre 2 1 4 Besoins en D veloppements Informatiques Le sujet de stage n ayant pas t d fini de mani re extr mement pr cise mon s jour NBT m a permi d aborder les th mes pr c delment voqu s qui sont l analyse d image la maintenance et l volution d une application Web et l analyse et l annotation de s quences g nomiques bas es sur une technologie novatrices qui est le grid computing Par ailleurs j ai eu effectuer des t ches d administration de syst mes dans un r seau h t rog ne d une quinzaine de machines fonctionnant avec Linux MacOS X et diff rentes versions de Win dows Il a fallu aussi maintenir deux serveurs dont un Windows et l autre Linux et se rendre disponible pour des questions li es l utilisation d outils bureautiq
14. E M E oyo o o jojo oj ojo pjopsifo 0 fojo o fo 07 TAB 4 3 matrice de l algorithme de SMITH amp WATERMAN Le meilleur alignement local entre les s quences est obtenu en effectuant le backtracking en ne commen ant pas forc ment par la derni re cellule remplie mais par celle ayant le meilleur score Ce qui nous donne ici la sous s quence commune EME On peut remarquer que ces deux algorithmes ont l avantage d tre exacts mais sont extr mement co teux en m moire et temps de calcul ces co ts sont en effet proportionnels au produit de la taille des s quences on a une complexit en O m n si m est la taille de la premi re s quence et n la taille de la seconde A noter qu il existe des impl mentations lin aires en m moire mais on est loin de la rapidit de Blast Elle est en effet due une approche heuristique 4 consistant a trouver rapidement un court alignement exact en fait un mot qui sera recherch dans les bases de donn es Les s quences r pondant cette requ te forment les hits D s lors Blast construit systematiquement l alignement complet par programmation dynamique et effectue un seuillage sur le score de ceux ci Il rend donc des s quences suffisamment similaires mais ne garanti pas de trouver la s quence ayant lalignement optimal C est le prix a payer lorsqu on cherche la rapidit Similarit entre s quenc
15. HTML et JavaScript Le fonctionnement de l application peut tre r sum de la sorte 1 Le client s enregistre et caract rise ses oliveraies Structured Query Langage 2 Java Server Pages 3code java s ex cutant c t serveur Chapitre 3 Maintenance et mise 4 jours d une application web 20 2 Chaque mois l administrateur met jour la base de donn es m t orologiques temp ratures pr cipitations nombre de jours en dessous et au dessus d une certaine temp rature l aide d un programme externe l application 3 Quand il le souhaite le client peut solliciter aupr s de l administrateur le calcul d une pr diction sur le mois venir bas e sur les donn es m t orologiques de l Andalousie depuis une cinquantaine d ann es et constituant ainsi une aide aux d cisions prendre en terme d irrigation et de nutrition des arbres 3 2 Probl matique Cette application a t d velopp e par une autre entreprise et j ai pu constater qu il s agit manifestement d une version en cours de d veloppement ayant une taille avoisinant les 30000 lignes de code non comment Par ailleurs les documents de sp cification et de conception ne sont pas en possession d NB T et les contacts avec cette entreprise sont inexistants Le probl me est donc le suivant prendre le temps de r aliser une cartographie de cette application c est dire repr se
16. Se pose alors un probl me li au temps de calcul n cessaire pour traiter c est dire tenter d identifier ces donn es Dans le cas de l algorithme de Smith amp Waterman qui n a pas d approche heuristique comme BLAST la comparaison de deux s quences de taille n m repr sente une complexit en O n m Ou plus g n ralement dans le cas de n comparaisons de s quences de taille n on atteint une complexit en O 3 L achat de machine super calculateurs d di es repr sentant un investissement d passant les ressources financi res qui peuvent y tre consacr le pari est alors de faire collaborer toutes les ressources informatiques de l entreprise par la mise en place d une grille de calcul Pour r sumer l objectif de cette plateforme logicielle est de comparer de mani re r partie les s quences biologiques afin de pouvoir les identifier On verra par aileurs que le design de cette architecture va permettre de d velopper rapidement une famille de logiciels fonctionnant sur le principe de la figure 4 3 en ne changeant que l algorithme de traitement des donn es Les m thodes utilis es pour la r alisation de cette plateforme touchent tant l analyse et la comparaison des s quences biologiques qu la gestion et l administration de bases de donn es le Grid Computing et la mod lisation et programmation orient e objet Quant aux technologies et langages utilis s
17. de droits les m thodes de d veloppement orient es objet et des solutions effectives pour les trois principaux th mes de travail NEWBIOTECHNIC a pu m apporter un certain nombre de connaissance g n rales dans l application des sciences informatiques des probl mes scientifiques concrets et effectuer des compromis entre temps de d veloppement et efficacit de la solution propos e Plus pr cis ment j ai appris aupr s de personnes particuli rement confirm es beaucoup de concepts et techniques incluant les notions de biologie sous jacentes dans l analyse fonctionnelle de s quences g nomiques et plus g n ralement en bioinformatique N tant pas sp cialiste en analyse d image j ai eu la possiblit de me documenter sur ces th mes et d acqu rir ainsi de nouvelles connaissances puis de les mettre en pratique dans le cadre de ce s jour Les Chapitre 5 Prise de recul et conclusions 40 travaux effectu s sur l application Web m ont permis de d velopper une certaine rigueur dans l laboration de sa cartographie Cette collaboration avec l entreprise m a apport norm ment et s est d roul dans un climat d coute d changes de bonne humeur propice un travail efficace Elle a d bouch sur une proposition d emploi laquelle j ai du particuli rement r fl chir Je me suis finale ment d cid sur une autre offre laquelle j ai r pondu et qui a
18. dement afin de b n ficier de nom breux services disponibles impl menter l interface PlugInFilter la m thode setup permet en fonction des arguments pass s en param tre de configurer le plugin Dans notre contexte on doit impl menter une m thode showAbout car on traite le cas o l argument vaut about et pour ne pas effectuer le traitement du plugin c est dire sa m thode run on rend en r sultat la constante DONE Dans tous les autres cas on rend un certain nombre de flags pour sp cifier que le plugin peut traiter correctement des images en niveaux de gris cod s sur 8 bits et peut galement traiter des piles d images de ce m me type la m thode run met en oeuvre les traitements effectu s par le plugin On r cup re dans un premier temps le processeur associ l image sur laquelle on applique ce plugin On peut alors disposer des informations sur les dimensions de l image et sur la s lection effectu e par l utilisateur ip getWidth ip getHeight ip getRoi Il faut par la suite d clarer et initialiser les objets que l on souhaite en sortie de filtre dans notre cas une nouvelle image correspondant l objet ImagePlus nomm ici inverted on r cup re galement son processeur associ pour effectuer les traitements sur cette nouvelle image On copie alors les pixels de l image originale dans la nouvelle avant d effectuer l inversion m thode copyB
19. e de l Oliveraie C BlastOnAGrid Bibliographie 29 29 29 30 30 32 33 34 37 37 38 38 38 39 39 39 40 40 42 42 43 43 43 43 45 47 47 47 47 48 48 49 51 53 Abr viations ADN acide d soxyribonucl ique ARN acide ribonucl ique BLAST Basic Local Alignement Search Tool EJB Enterprise Java Bean EST Expressed Sequence Tag Est ASA Est semi Automated Sequence Analysis GIO Gestion Integral del Olivo gestion int gr e de l oliveraie HTML Hypertext markup language IHM Interface homme machine INM Instituto Nacional de Meteorologia analogue a Meteo France Jar Java archive JDBC Java database connectivity JDK Java development kit JRE Java runtime environment JSP Java server pages LAN Local area network NBT NewBioTechnic NIMP Norme internationale pour les mesures phytosanitaires CEMP 1996 SQL Structured Query Language UML Unified modeling language WAN Wide area network XML eXtensible markup language XSL eXtensible stylesheet language Chapitre 1 NEWBIOTECHNIC S A N B T 1 1 Profil de l entreprise mission NEWBIOTECHNIC S A est une entreprise priv e de Sevilla Espa a Fond e en Janvier 1999 par deux chercheurs des universit s de Salamanque et Seville et soutenue financi rement par l tablissement bancaire EL MONTE Caja de Huelva y Sevilla NBT est une entreprise spin off issue d une scission par branches d activit s Par son origine et nature
20. effet ce que pr sente l administrateur au client est un rapport sous forme papier J ai r fl chi une solution simple consistant profiter de la construction dynamique des pages par g n ration de balises HTML au sein des pages JSP pour construire un fichier balises au format LaTex sur le serveur Il peut tre par la suite traduit au format de documents portables PDF ou POSTSCRIPT qui sont eux directement destin s l impression sur papier Les tests effectu s se sont av r s satisfaisants mais n ont pas t s men s terme mon travail sur cette application Web tant consid r comme termin Cette solution semble prometteuse bien que le co t de la traduction en PDF PS sur le serveur soit prendre en compte Chapitre 4 Comparaison r partie de s quences g nomiques 4 1 Introduction th matique Le travail r alis s ins re dans le cadre du projet ESTASA Semi automated sequence analysis pipeline for ESTs projects dont en voici un court r sum Les maladies affectant les plantes causent chaque ann e de tr s s v res pertes dans les r coltes Les cultures peuvent tre efficacement prot g es au moyen d agents de contr le biologique comme par exemple Trichoderma r duisant ainsi de mani re drastique l usage des pesticides ESTASA est un syst me d annotation et d analyse automatique de s quences centr principalement sur les projets de
21. en 3 groupes Biocontr le et applications agronomiques produits ayant pour but de favoriser la croissance le rendement de plantes un fongicide biologique bas sur le champignon Trichoderma c f 2 1 1 un outil GIO c f 3 1 bas sur un portail Web permettant d optimiser l irrigation et la fertilisation des oliviers en Andalousie Diagnostics g n tiques service de s quen age d ADN de bioinformatique d int gration et d analyse in silico 3 de donn es diagnostics humains et v t rinaires d tection l dipl me de fin d tudes universitaires quivalent au DESS francais 2produit d truisant les champignons parasites analyse de donn es par des algorithmes informatiques Chapitre 1 NEWBIOTECHNIC S A N B T 6 d organismes g n tiquement modifi s de fraudes pour des produits alimentaires de certaines vari t s Technologies g n tiques g nes destin s am liorer la r sistance et tol rance de plantes certaines maladies am liorations de leur production par modification g n tique 1 3 O les Technologies de l Information interviennent Le d partement de bioinformatique dont FRANCISCO JAVIER GONZALES est le responsable se charge de mettre en place des infrastructures informatiques ayant pour but de stocker manipuler et analyser les donn es issues de projets de s quen age g nomiques chapitre 4 Par ailleurs outre les besoins li s au fonctionnement de l entreprise l
22. les pages clientes et adminis tration de l application et l application proprement dite c est dire les JavaBeans x cut s sur le serveur Chapitre 3 Maintenance et mise 4 jours d une application web 21 Les figures B 2 B 1 en pages 50 et 49 disponibles en annexe sont des extraits des deux graphes issus de la scission du premier La r alisation de ces graphes a t une tape relativement longue car il a fallu examiner le code et les r aliser 4 la main J imagine que l criture de scripts permettant la construction de graphes partir des pages jsp doit tre possible avec des outils comme GRAPHVIZ Par ailleurs des outils commerciaux r alisant ce travail doivent certainement exister mais le temps consacr cette recherche s est av r trop mince La maintenance de cette application a consist principalement du nettoyage de code c est dire la supression des doublons de fichiers figurant et dans la partie client et dans la partie administration et de certaines parties de code en commentaire Les autres t ches de maintenance ont consist effectuer des modifications d interface graphique par l ajout de ToolTips et imprimer dans la page affich e par le navigateur les exceptions Java en cas de bug du syst me En effet auparavant seul un message non informatif de type Erreur Syst me contacter l administrateur tait affich e 3 3 2 Ajout de fonct
23. pas Elle peut se d finir globalement par la partition d une image J en une ou plusieurs r gions R1 R2 Rn ce qui donne formellement n i J Ri avec Vi j 1 n 14 j RiNR 9 i 1 Une des approches qui a t utilis e dans ce syst me se base sur le seuillage de l image Les th mes voqu s par la suite ont fait l objet de divers tests sur les images qui m ont t fournies Finalement c est dire en pratique les am liorations apport es th oriquement par le filtrage et la fermeture de limage binaire n taient pas significatives lorsqu on executait le plugin d analyse de particules d imageJ Par souci de simplicit et d efficacit j ai du les suprimer des traitements effectuer par l application Pr traitement par filtrage Filtrer une image peut se d finir comme la convolution de celle ci avec une fonction que l on appelle r ponse impulsionnelle ou op rateur de convolution Dans le cas pratique d une image carr e constitu e de pixels cas discret l image filtr e est donn e par pour une image de taille n k tant le domaine de f et k lt n Ip x y f x 1 x y k 2 k 2 D D fasii iIi i k 2 j k 2 Le filtrage lin aire consiste simplement remplacer chaque pixel son niveau de gris par une combinaison lin aire de ses voisins Le filtre qui a t test a eu pour but d accentuer les contours de limage C est un fi
24. t positivement xamin e Nous allons donc rester en contact afin d ventuellement collaborer nouveau si je deviens disponible et d cide de me consacrer pleinement la bioinformatique Sur un plan plus personnel j ai particuli rement appr ci ce long s jour en Andalousie qui a t riche en changes culturels et nouvelles amiti s Annexe A Mesure de croissance de Racines via ImageJ A 1 Fonctionnement de l application de mesure laFenetre otsu unTraitement Fenetre OtsuThresholder Traitement nvellelmage ImagePlus i i ouverturelmage i regDefauts computeThreshold getThreshold calcullmage getlmageTraitee Sequence Chart of a process Here is explained how is processed an ImagePlus Object from the main window laFenetre In order to not overload the chart parameters of calls are omitted FIG A 1 Diagramme de s quence UML lors d un traitement d une image Chapitre A Mesure de croissance de Racines via ImageJ A2 A 2 Document diffus au sein d NBT au d partement phytopathologie Roots area measurement through ImageJ pre release document thanks to send me back suggestions alban newbiotechnic com 5th April 2004 This document describes how you can measure automatically roots with the free software ImageJ http rsb info nih gov ij JAVA is required The steps are exposed below in the first section A second secti
25. t sugg r la r alisation de zoom afin de manipuler des images de grande taille D fauts de l algorithme L algorithme de d tection de contour d IMAGEJ a t mis en d faut lorsqu il y a des re couvrements sur l image en d autres termes lorsque les racines se croisent En voici une illustration FIG 2 6 dessins illustrant les d fauts de l algorithme Une solution consisterait num rer les pixels se trouvant sous ou sur le seuil d termin on passerait donc outre ce probl me de zones englob es Cette id e n est malheureusement pas satisfaisante car on n effectuerait qu une mesure globale sur l image perdant la possibilit de comparer plusieurs entit s sur la m me image Supposant une image bi modale constitu e dune classe de pixels Fond et d une seconde Entit s une solution alternative consisterait d velopper un algorithme hybride m langeant l approche d tection de particule d imageJ avec une soustraction des pixels englob s dans une entit mais appartenant la classe Fond Le probl me r soudre est de pouvoir identifier un pixel appartenant une r gion sans avoir de param trisation math matique du contour de celle ci Une r ponse consisterait en une d composition en composantes connexes de l image binaire c est dire en associant une composante les pixels d une m me classe connect s entre eux I a t choisi de se
26. un champignon tr s largement disponible dans la nature que l on peut facilement isoler et cultiver qui se d veloppe tr s rapidement sur de nombreux substrats sans affecter ni l homme ni les animaux ni les v g taux Les esp ces du genre Trichoderma ont t d finies comme antagoniste face d autres champignons phytopathog nes Cette propri t fait que de nombreuses souches ont t utilis es comme agents effectifs de biocon tr le pour des maladies de cultures Par ailleurs certaines ont t brevet es pour leur commercialisation Les champignons issus du genre Trichoderma constituent une alternative biologique plus saine propre non accumulable dans la chaine alimentaire et respectueuse de l environnement en opposition aux pesticides chimiques polluants que l on utilise habi tuellement dans l agriculture Trichoderma exerce son activit de biocontr le par diff rent m canismes et fait cro tre les plantes au niveau radiculaire et v g tal L analyse d images a t utilis e afin de d terminer quantitativement les capacit s de croissance des diff rentes souches de trichoderma sur plusieurs esp ces de semences de tour nesol Les semences ont t dans un premier temps pr germ es puis ensuite inocul es de celles ci Durant la p riode de croissance des mesures furent r alis es et la fin de l ex p rimentation les zones radiculaires ont t
27. D veloppement d outils informatiques appliqu s aux biotechnologies ALBAN GAIGNARD alban gaignard ifsic univ rennes1 fr alban newbiotechnic com sous la direction de FRANCISCO JAVIER GONZALEZ Rapport de stage de fin d tudes en vue de l obtention du dipl me d Ing nieur de VIFSIC DC fili re Langages et Syst mes Informatiques LSI NEWBIOTECHNIC S A http www newbiotechnic com Paseo de Bollullos de Mitacion 6 Parque Industrial A 49 PIBO 41110 Bollullos de Mitacion Sevilla Espa a Universit de Rennes1 IFSIC Ann e 2003 2004 Remerciements Je tiens remercier en premier lieu l ensemble du personnel de NEWBIOTECHNIC pour leur acceuil et le climat d coute et d change auquel tout le monde a contribu afin de rendre le travail agr able et efficace Ils sont tout sp cialement destin s mon maitre de stage FRANCISCO JAVIER GONZALES pour son soutien tout au long de ce s jour sa patience ses remarques pr cises et la facon avec laquelle il m a guid vers les compromis les plus acceptables Je tiens galement remercier MANUEL REY BARRERA docteur en biologie et respon sable du d partement de biologie mol culaire pour ses claircissements sur les notions bio logiques que je ne maitrisais pas Ces remerciements s adressent aussi RAFAEL CAMACHO FUMANAL directeur de NEWBIOTECHNIC pour les facilit s qu il a pu me fournir notam ment en m offrant mon arriv e u
28. ES oe Bd 2 eG ra a 29 TABLE DES MATIERES 4 2 Probl matique 4 3 Projets similaires outils disponibles In GTI LU he eee ES eS SES eee Oe Lo BOTN A ts ee ee ee oh ee Ea me a 4 3 1 4 3 2 4 4 Plateforme logicielle BLASTONAGRID 4 4 1 4 4 2 4 4 3 4 4 4 4 4 5 4 4 6 4 4 7 Pr traitement des donn es Traitement des donn es Post traitement des donn es Choix de conception mod lisation Interface Homme Machine Difficut s techniques rencontr es Evaluation des performances 4 5 Mise en perspective 5 Prise de recul et conclusions 5 1 Organisation 5 2 Difficult s d ordre g n ral rencontr es 5 3 Travail r alis 5 4 Conclusion A Mesure de croissance de Racines via ImageJ A 1 Fonctionnement de l application de mesure A 2 Document diffus au sein d NBT au d partement phytopathologie A 3 Manual processing A 3 1 A 3 2 A 3 3 A 3 4 A 4 Automatic processing HON EO cet u G a Hoe woe Has tas Be A BE GS D Seau Summary of the process A 4 1 A 4 2 A 4 3 A 4 4 Image to process the photo of roots Pre processio e cave tad ee ew Gy Seg Re Ok RS Analysis of particle counting and measurement Lastnina ri ar amp etek amp be ee ee ee eS Things that are not yet implemented B Gestion Int gr
29. J 47 A 4 3 Things that are not yet implemented e the high pass filter is up to date but not executed yet in the process e the morphologic close operation might be a solution to connect artificially particules disconnected by the Threshold filter A 4 4 To Do e execute a High Pass filter finding a good kernel of convolution e determining the min and the max of the set T hreshold method e eventually inverse the image e execute a closure on the binary image e designing a Graphical User Interface hiding the ImageJ software e developping a version that can be used as an applet or as a command line application Annexe B Gestion Int gr e de l Oliveraie FIG B 1 Extrait de la cartographie de application Web ax e communication 49 y W Chapitre B Gestion Int gr e de l Oliveraie f rtographie de l application Web ax e application Extrait de la ca B 2 FIG Annexe C BlastOnAGrid descriptors 1 TableDescSeq TableDescRes ConnectorDB 1 1 lt lt Use gt gt lt lt Use gt gt i DescSeq DescRes N lt lt uSe gt gt connectionConf Package Diagram Alban Gaignard 16 07 2004 FIG C 1 ensemble des packages du programme BlastOnAGrid ConnectorBD C TestExee conn Connection confSource Source url string confDest Destination login string 51 confGrid Grid 1 pass string Java Util Vector
30. National Center of Biotechnology Information Chapitre 5 Prise de recul et conclusions 5 1 Organisation Ce s jour au sein de l entreprise NEWBIOTECHNIC constituant pour moi une d couverte s rieuse du monde de l entreprise s est d roul principalement en trois parties chacune fai sant l objet d un chapitre de ce pr sent document Le premier mois et demi a t consacr la d couverte de l entreprise de ses outils et de ses infrasctructures informatiques et l laboration du syst me de quantification de croissance de racines par analyse d images Le mois et demi suivant a quant lui t d di la maintenance et l volution de l application Web GIO Les 3 derniers mois ont t consacr s la conception et la mise en oeuvre du syst me de comparaison r partie de s quences g nomiques J ai effectu mon travail suivant les horaires des autres employ s avec une certaine flexi bilit huit heures de travail journalier g n ralement de 9h 14h et de 16h 19h avec un changement d horaire durant l t plus adapt aux conditions m t orologiques cette p riode de l ann e de 8h 15h Le poste de travail auquel j ai t affect s est situ dans un espace ouvert relativement petit o travaillent les biologistes en dehors du laboratoire le directeur commercial et marketing les personnes charg es des th mes bio
31. T string bitScore tabSeq TableDescSeq length string alignmentSize desc DescSeq description string numberOfldentities ResParse d DescSeq t TableDescSeq accession string H HSP numberOfPositives eraseDesc d DescSeg void all the get methods ene Oe HORS NAT queryFrame run void extractAccession desc string string hitFrame ResultsProcessor printMe a constructor nbParsed int sendMe all get and set operations tabSeq TableDescSeq printMe ResultsProcessor t TableDescSeq incrNbParsed void run void getBla BlastLikeAlignment BlastLikeAlignment hitSeq Sequence matchSeq Sequence qSeq Sequence BlastLikeAlignment h Sequence m Sequence q Sequence getHitSeq Sequence getMatchSeq Sequence getQSeq Sequence UML Static Class Diagram 1 printMe Sequence lt lt Use gt gt StartPos string StopPos string seq string Blast On A Grid Software Alban Gaignard 15 07 2004 UN matchSeq tendra sus caracacteristicas startPos y stopPos a 0 porque no figuran en la DTD de BioJava getStart string getStop string getSeq string Alban Gaignard 29 06 2004 Chapitre C BlastOnAGri FIG C 2 mod le statique de BlastOnAGrid Bibliographie 1 2 3 4 5 6 7 8 9 Ron Shamir Dana Torok amp A
32. alise ouvrante et une fermante Cet v nement est lev dans ce cas Lorsque le parser r agit ces v nements les instructions de cr ation des objets r sultats sont x cut es et lorsqu un tel objet est termin il x cute sa m thode sendMe qui r alise son enregistrement aupr s de la base de donn e J ai choisi de ne pas utiliser les diagrammes de s quence de la syntaxe UML afin de communiquer plus facilement avec mes coll gues n ayant pas une culture informatique et mod lisation objet Le sh ma de la figure suivante est une repr sentation qui peut sembler curieuse mais r sumant le fonctionnement g n ral de l application Cette illustration tente de repr senter les deux dimensions du syst me spatiale et temporelle Les fl ches en traits pleins repr senteront les s quences celles en pointill s repr snteront les r sultats issus de BLAST 18Un mod le UML ayant servi au codage de cette partie est visible en annexe a la page 52 19 des balises ouvrantes ou fermantes peuvent tre consid r es comme des v nements XML g n r s par le parser 35 equences genomiques Ed le de s t ison r par Compara Chapitre 4 parametres min max Domaine Spatial A pre processing Recuperation des sequences via SQL lt Domaine Temporel toutes les sequences cible min s Id s max A Producteur de resultats B
33. aliser l extraction d informations d un rapport de r sultats Blast Un travail pr alable la mise en place d un parser a t de cr er un mod le des r sultats fournis par les programmes de type Blast ou Blast like comme WU Blast HMMER DBA Ce travail s est fortement appuy sur l analyse de la grammaire d un tel mod le sur laquelle est fond e le parser de BIOJAVA la classe BlastLikeSAXParser Cette grammaire est une DTD XML disponible dans le r pertoire CVS de BioJava 6 dans Chapitre 4 Comparaison r partie de s quences g nomiques 34 le r pertoire biojava biojava live dtd De cette DTD ont t s lectionn les donn es qui se sont av r es dans notre contexte les plus int ressantes BlastLikeSAXParser se charge de parser le rapport Blast au format texte comme s il s agissiat d un fichier XML crit sui vant la DTD de BioJava Il ne reste donc plus qu crire la partie v nementielle de ce parser comme si on travaillait avec un parser SAX le gestionnaire de contenu Conten tHandler Il se charge de r agir aux v nements XML Trois v nements sont essentiels pour l impl mentation de cette interface startElement il notifie une balise ouvrante d un lement XML endElement indique une balise fermante d un lement charcters les l ments XML ne sont pas form s que de balises et d attributs ils peuvent aussi contenir du texte entre une b
34. arch Engine and 12 S bastien flux http smeric developpez com java cours xml sax its Implementation using the Google Distri buted Web Services d un 2003 Meric Lecture XML via SAX Octobre 13 St phane Bres Pierre Antoine Champin Jean Mathias Jean Michel Jolion Etienne Loupias Trai Vision Artificielle http telesun insa lyon fr telesun Heraud Vincent Herilier tement d images et 14 Bruno Nazarian Cours d imagerie num rique http bnazarian free fr Cours Cours htm Table des figures 2 1 22 2 3 2 4 2 9 2 6 3 1 4 1 4 2 4 3 4 4 4 5 4 6 A l A 2 A 3 A A A 5 A 6 A 7 B 1 B 2 C 1 C 2 Du pilotage des fonctionnalit s d imageJ la pr sentation des r sultats Images traiter en d but et fin d laboration du syst me de quantification de croissance plugin r alisant l inversion d une zone pr d termin e de l image suite des traitements appliqu s l image traiter IHM de l application de quantification de croissance de racines dessins illustrant les d fauts de l algorithme l gende des graphes repr sentant l application web dogme central de la biologie mol culaire processus de s quencage d un EST Les donn es issues du s quencage sont enregistr es dans une base de donn e trait es loca lement et les r sultats sont eux aussi enregistr dans une base de donn e infrastructure possible l
35. as firstly developed then new features on the meteorolo gical database updating process were included Several improvements on the user interface as well as data collection for bug tracking were also implemented The development of the genomic sequence comparison framework is based on a grid computing scheme This tailor made solution based on the commercial grid technology provided by GRIDSYSTEMS includes additional modules programming and development of a platform for functional analysis of DNA sequences driven by a graphical user interface It allows searching of sequences in a database the creation of a BLAST module for the grid the processing of comparison results and finally to keep them stored in a database This report will thus focus after a short presentation of the company on these three topics which will be further introduced by background explanations within their respective scenarios and developed in each one of the chapters sorted according to the chronology of the works Table des mati res Abr viations 5 1 NEWBIOTECHNIC S A N B T 6 1 1 Profil de l entreprise mission eve 2 a se subie OS EEE Rw SOR 6 1 2 Produits et Technologies Lisa x ach w a Ee Pe s aus 6 1 3 O les Technologies de l Information interviennent 7 1 4 Besoins en D veloppements Informatiques T ko EQUIPO 5 bbc He ee rra a So a Ae ee ee Se Be T 2 Mesure semi automatique de la surfac
36. ation se d finit de mani re analogue comme les points de l image J r pondant la question By touche t il l ensemble X ce qui donne formellement Y relI B nx 0 c est dire la distribution de ses niveaux de gris en d autres termes le nombre de pixels de l image correspondant chaque niveau 10mesure de la quantit d information contenue dans l image Chapitre 2 Mesure semi automatique de la surface de racines 12 2 3 Diff rentes tapes d laboration de ce syst me 2 3 1 Les images Dans un premier temps il a fallu laborer les traitements pour des images dificilement ex ploitables En effet les conditions d illumination n taient pas homog nes et le seuillage via IMAGEJ ne donnait que des r sultats mediocres Il a donc fallu trouver un moyen pour bien prendre les photos Les biologistes ont pu ainsi extraire du milieu de culture les racines et les disposer sur un plan de couleur sombre Les photos ont t prises avec un pied et des conditions d illumination bien meilleures La figure 2 3 1 de la page 13 montre un exemple de photo prise en d but et en fin d laboration du logiciel Ce court paragraphe tend montrer l importance de la qualit des chantillons originaux Planta 14 dias Longitud Media 36 36 mm NBT 3 8 dias 10e6 esp r lo FIG 2 2 Images traiter en d but et fin d laboration du syst me de quantification de croissanc
37. attribu un noeud de la grille le serveur se chargeant alors d orchestrer cet ensemble de calculateurs afin de mener terme la tache globale Quelques mots sur la technologie mise en oeuvre dans cette plateforne elle se fonde sur deux concepts centraux Deux types de composants vont donc collaborer les Serveurs et les Agents 0 106n parlera indistinctement d agent de client ou de noeud de la grille Chapitre 4 Comparaison r partie de s quences g nomiques 29 Le serveur est l ment cl il g re la distribution des t ches vers les agents Il est galement possible de travailler sur la m me infrastructure avec un nombre plus im portant de serveurs lorsque l on se trouve dans un contexte o la tol rence aux pannes est critique L agent InnerGrid est la partie logiciel qui s ex cute chez le client et qui permet chaque noeud de la grille de collaborer la r alisation des t ches soumises au serveur Ce logiciel s ex cute comme t che de fond ou encore daemon dans la langue de Shakespeare et se charge ainsi de r aliser un ensemble d actions n cessaires pour participer au processus Observons maintenant plus en d tail comment la t che est soumise puis r alis e sur la grille de calcul 1 Le film original est d coup en petits fragments Un cas int ressant est la fragmentation en autant de morceaux que de noeuds disponibles sur la
38. binaire caract ristique d un comportement que l on veut donner l application 128 bits correspondent 256 niveaux de gris possibles 13on parle alors de ROI pour Region Of Interest 14 savoir simplement que l on est en pr sence d un tableau de pixels unidimensionel 15image couleur sur 8bits gris sur 8 16 ou 32 bits etc Chapitre 2 Mesure semi automatique de la surface de racines 15 D ploiement du plugin Les plugins d velopp s par les utilisateurs doivent tre situ s dans un dossier nomm plugins qui est un sous dossier d IMAGEJ Les sous dossiers situ s dans ce dossier plugins sont alors affich s dans le menu du m me nom Pour installer un plugin une classe JAVA compil e et ainsi suffix e par class il suffit de copier le fichier class dans le dossier plugins f Eventuellement si l utilisateur se trouve en possession du code source du fichier il devra le compiler au pr alable l aide par exemple du compilateur fourni par le JDK en x cutant par exemple dans un terminal javac MonPlugin java Le plugin d velop pour l analyse des racines Il a t r alis suivant le mod le de l exemple pr c dent On effectue simplement dans le corps de la m thode run les diff rents appels aux fonctionnalit s d IMAGEJ afin de r aliser le protocole de la page 13 d tailler Toutefois ce plugin est rest l tat de test car le besoin d inte
39. dar Shtainhart Analysis of Gene Expression Data mars 2002 Por Bioinformatique Centre de Ressources INFOBIOGEN tail de et de http www infobiogen fr services deambulum fr Biologie Ian Korf Mark Yandell amp Joseph Bedell BLAST An Essential Guide to the Basic Lo cal Alignment Search Tool O REILLY 2003 St phane Guyetant Evaluation d heuris tiques pour l alignement de s quences g no miques IRISA 2003 Rex A Dwyer Genomic Perl from bioinfor matics basics to working code CAMBRIDGE UNIVERSITY PRESS Thomas Down Michael Heuer David Huen Matthew Pocock amp Mark Schreiber http www biojava org http cvs biojava org http www3 sympatico ca foisys bj in anger Sun Microsystems Bogdan Vasiliu Integrating BLAST with Sun ONE Grid Engine Software Juillet 2003 http developers sun com solaris articles integrating_blast html Wellington S Martins Juan del Cuvillo Wenwu Cui amp Guang R Gao Whole Genome Alignment using a Multithreaded Parallel im plementation Aur lien Leroux Sampling entrep t de s quences biologiques construit sous forme d agent logiciel et sp cialis dans la compa raison intensive de s quences Rapport de stage de DEA IRISA amp INSERM GERM 435 10 F Hernandez N Jacq amp S Nicoud Da taGrid Projet Europ en de grille de calcul 2001 11 Choon Hoong Ding amp Rajkumar Buyya Guided Google A Meta Se
40. de la t che Dans notre contexte ce parti tionnement est trivial puisqu il consiste envoyer chaque agent une s quence et un x cutable adapt l architecture cible La figure 4 5 r sume la constitution d un module et d une t che pour une grille de calcul INNERGRID 16dans la terminologie InnerGrid comment doit on passer d une t che un ensemble de micro t ches 17le r sau informatique de NBT tant constitu de machines Linux Mac et Windows Chapitre 4 Comparaison r partie de s quences g nomiques 33 InnerGrid Module t D microtask InnerGrid Task gen bg microask Server A DOO ke micro task 5 FIG 4 5 d finition d un travail effectuer par la grille 4 4 3 Post traitement des donn es Blast produit deux types de r sultats une sortie directe au format texte et une sortie balis e au format XML Le probl me revient alors extraire les informations relatives aux s quences les plus proches permettant d identifier celles sur lesquelles on travaille Il s agit donc de r aliser le parsing des r sultas de Blast et d effectuer par la m me occasion apr s avoir cr une hierarchie d objets abstraits correspondants aux r sultats l actualisation de la base de donn e avec ces objets Comme les calculs sont relativements longs il n est videmment pas souhaitable que le logiciel se bloque dans l attente de leur
41. e 2 3 2 Protocole de traitements avec IMAGEJ L laboration de la suite des op rations effectuer a fait l objet de la r daction d un court document disponible en annexe la page 43 En quelques mots les tapes sont les suivantes 1 Conversion de l image en niveaux de gris 2 Accentuation ventuelle des contrastes 3 Binarisation de l image par seuillage 4 Application du filtre analyse particles 2 3 3 D veloppement d un plugin IMAGEJ La mani re la plus simple pour aborder le d veloppement d un tel plugin c est d tudier dans un premier temps un exemple simple il sera par la suite comment Seront galement d taill s les principaux objets manipulables fournis par PAPI d IMAGEJ et comment doit tre d ploy au sein du logiciel un plugin Commen ons par un exemple comment Chapitre 2 Mesure semi automatique de la surface de racines import ij import ij gui Newlmage import ij plugin filter PluglnFilter import ij process java awt public int setup String arg ImagePlus imp if arg equals about showAbout return DONE soporta imagenes 8BitsGrays y Stacks tambien return DOES_8G DOES_STACKS private void showAbout IJ showMessage Enumeracion y Quantificacion de Semillas blablabla blablabla blablabla public void run ImageProcessor ip int w ip getWidth int h ip getHeight Rectangle roi ip getRoi int offset 0 int pos 0
42. e _ Standard Deviation _ Modal Gray Value Min amp Max Gray Value Centroid Center of Mass Perimeter _ Bounding Rectangle a Fit Ellipse zj Circularity Feret s Diameter Limit to Threshold Display Label _Jinvert Y Coordinates Redirect To None zd Decimal Places IB OK Cancel Figure A 5 Parameters of measurement Chapitre A Mesure de croissance de Racines via ImageJ 45 Then the filter particle analysis Analyze Analyze Particles can be applied Minimum Size pixels Maximum Size pixels Bins 2 256 Show Outlines Display Results JExclude Edge Particles Size Distribution Clear Results Table Record Starts _ Summarize OK Cancel Figure A 6 Parameters of the analysis File Edit MN de 410 1 2 3 457 4 5 Figure A 7 Results of the analysis Chapitre A Mesure de croissance de Racines via ImageJ 46 A 3 4 Last minute An other method to pre process the source image consists in first applying a high pass filter It can be done by executing a convolution filter with kernel 0 1 0 1 5 l 0 1 0 Then you should run the filter Substract Background of the Process menu and choose the black or white background Now you might be able to threshold the image more eas ily The ultimate thing is the parametrisation of binary filters Process Binary Options by setting the number of iterations to 1 and choosing the colo
43. e comparer leur croissance au cours d exp rimentations biologiques Consid rant le logiciel IMAGEJ un tel syst me peut se pr senter sous plusieurs formes La premi re peut tre constitu e par un protocole de traitements et d application de filtres en utilisant directement les menus de cette application Ce protocole peut tre automatis l aide d une macro Cette option ne peut tre envisag e que pour des images relative ment similaires en effet une fois cette macro est lanc e l utilisateur perd tout contr le sur la s quence d op rations r alis es Afin de lui fournir un contr le sur les param tres des traitements il est possible de d velopper un plugin qui permettra d tendre les fonction nalit s d IMAGEJ de fa on modulaire Enfin dans le but de rendre le syst me sp cifique un type d images et plus simple pour l utilisateur qui ne souhaite r aliser qu une seule s quence d op rations on pourra substituer l interface graphique d IMAGEJ afin de masquer les contr les inutiles et l adapter ainsi aux sp cificit s des traitements et au degr d inter action souhait e en consid rant IMAGEJ comme une biblioth que de fonctions de traitement d images Ces diff rentes options r sum es sur la figure 2 1 de la page 10 Nouvelle IHM Menu Boutons Scrollbar d ajustement des param tres macro commandes IHM Menus Boite a outi
44. e de racines 8 2 1 Besoins sp cifications informelles 8 Dold Comtexte DIOIOMIOUC erica BR a aaa 8 2 1 2 Outils existants pour la r alisation de cette analyse d images 8 2 2 Expression du probl me et notions th oriques pour le r soudre 10 2 2 1 Objectifs de ce syst me d analyse d images 10 2 2 2 Notions d analyse d image ico ca a dla dde Bd 11 2 3 Diff rentes tapes d laboration de Ce syst me 13 Zad PSS dpi rar Gee A ee ERE ewe oS eee 13 2 3 2 Protocole de traitements avec IMAGEJ 13 2 3 3 D veloppement d un plugin IMAGEJ 13 2 3 4 D veloppement d une IHM 16 2 4 Mise en perspective regard critique 18 3 Maintenance et mise jours d une application web 20 ED A a ES eBags he eee EPS oe SA 20 32 Probimatig e gt bk kek we BPO eee ee eR we ow eee ee 21 Door Trival toale ARE 21 3 3 1 Documentation et maintenance 21 3 3 2 Ajout de fonctionnalit s 22 3 4 Mise en perspectives 22 4 Comparaison r partie de s quences g nomiques 24 4 1 Introduction th matique 24 4 1 1 Quelques notes de Biologie 24 4 1 2 BLAST Alignements et Similarit s de s quences 25 AMS VGRA COMDUMNG sex aek Gnd a a
45. es Elle est valu e l aide d une matrice de scores et de divers indicateurs staistiques On a vu que Blast tait en fait une famille de logiciels certains travaillent sur des s quences d ADN d autres sur des s quences de prot ines les comparaisons ayant lieu sur des banques d ADN ou de prot ines Celui que nous utilisons traduit la s quence d ADN en toutes les s quences d acides amin s possibles et les compare une banque de prot ines La matrice de score utilis e s appelle BLOSUM62 et attribue un score de similarit pour chaque paire possible d acide amin C est elle qui est utilis e dans les algorithmes de comparaison par programmation dynamique s Quelques indicateurs de similarit Score de l alignement S somme des valeurs donn es par la matrice de substitution BLOSUM62 en soustrayant les p nalit s d insertion gap Bit score score normalis permettant de comparer des recherches avec diff rents sys t mes de score e value correspond l esp rance en probabilit de trouver dans la base de donn e un alignement avec un score sup rieur ou gal S En pratique plus il est faible meilleure est la similarit on ne regarde en g n ral que les s quences ayant une e value inf rieure 107 Dans la pratique on x cute souvent sur les s quences retourn es par Blast un algorithme de SMITH amp WATERMAN afin de recherche
46. existe en effet une famille d applications travaillant sur differents types d entr es et de bases de donn es Blast value de mani re statistique la similarit entre les s quences Pour cela Blast r alise un alignement entre les s quences deux deux certains programmes sont quant eux sp cialis s dans la r alisation d alignements multiples Alignement de s quences On se trouve en pr sence de deux types de donn es les deux s quences aligner et une ma trice de scores permettant d valuer cet alignement L valuation fera l objet du paragraphe suivant Le but d un alignement global de deux s quences est outre son valuation de mettre en vidence la meilleure correspondance entre des r sidus de celles ci en conservant bien sur l ordre Les mutations que l on peut observer sur les s quences sont les substitutions insertions et d l tions On peut par exemple chercher aligner les deux s quences suivantes PROBLEME et POEME ce qui pourrait donner par exemple s quence 1 P R O B L E M E s quence 2 P 0 E M E Les algorithmes permettant de calculer ces alignements se fondent sur la Programmation Dynamique qui est souvent utilis dans le cadre des probl mes d optimisation Ce principe sous certaines contraintes consiste explorer l espace des sous probl mes et m moriser les solutions optimales de ces der
47. extraites et dispos es sur un plan monochrome afin de prendre les photos 2 1 2 Outils existants pour la r alisation de cette analyse d images Outils commerciaux Auparavant les traitements taient effectu s gr ce deux outils l un tant d di la re touche et au montage photographique l autre tant d di aux SIG Le seul fait outre le nombre d tapes effectuer et leur param trage de traiter une image par l emploi de deux logiciels trahi la relative lourdeur des op rations milieu de culture d un organisme 20rganisme le plus souvent pathog ne qui n occasionne pas de d g ts importants mais dont la pr sence prot ge ses h tes des d g ts d autres organismes nuisibles NIMP Pub No 3 1996 3 r duire les populations d ennemis de culture en faisant appel leurs ennemis naturels leurs pr dateurs 4Syst mes d Information G ographique Chapitre 2 Mesure semi automatique de la surface de racines 8 Solution libre de droits IMAGEJ C est un logiciel issu du domaine public de traitement et d analyse d images scientifiques Il correspond la r criture en JAVA du tr s c l bre NIH IMAGE d velopp sur Macintosh Il est disponible l adresse http rsb info nih gov ij ainsi que toute la documentation et de nombreux plugins d velopp s par des utilisateurs Il peut s xecuter sur n importe qu elle machine disposant de la machi
48. grille 2 Le serveur stocke sur son syst me de fichiers chacun des fragments ainsi que les pro grammes ex cutables utilis s pour effectuer la conversion Dans le cadre le plus cou rant d un r seau h t rog ne le serveur doit disposer des ex cutables pour chaque plateforme afin de pouvoir fournir le programme adapt chaque syst me d exploita tion 3 Lorsque l utilisateur lance une t che de conversion le serveur se charge de distribuer chaque agent disposant des ressources n cessaires et remplissant les conditions re quises un fragment du film ainsi que le programme ex cutable destin traiter ce dernier 4 Chaque agent m morise dans son syst me de fichier le fragment de film ainsi que le programme de conversion Il ex cute alors sa t che 5 Lorsqu un agent a termin sa t che le fragment original est supprim et le frag ment converti est envoy au serveur qui stocke alors le r sultat sur son syst me de fichier middleware 6 Lorsque l ensemble des micro t ches de conversion est termin le serveur joint alors les fragments bout bout pour construire le film converti 4 3 2 BioJava A Vinstar de BioPerl BioJava est un environnement de d veloppement Java 6 permettant toutes sortes de traitements sur des donn es biologiques Il inclue la cr ation et manipulation de s quences des parsers de fichiers des acc s au bases de donn es BioSQL
49. ine en s aidant des pointeurs m moris s On remarquera par la suite que plusieurs alignements sont consid rer si plusieurs pointeurs sont m moris s Voici un d alignement global pour les deux s quences pr c dentes PROBLEME et POEME avec l algorithme de NEEDLMAN amp WUNSCH fea aT NI EAS be Set PR ea eee Pee reese TO ASS a ae ASS AURUM OS ES per ON TAB 4 1 Remplissage de la matrice de programmation dynamique avec l algorithme de NEEDLMAN amp WUNSCH Le tableau suivant illustre le Backtracking on retrouve bien l alignement effectu la main en page 26 Une fl che horizontale repr sente une insertion sur la s quence de l axe des ordonn es ee ee ee ppp so paa are E OO A AR TAB 4 2 Backtracking pour determiner l alignement global Les deux tableaux suivant illustrent la d tection du meilleur alignement local ave lal gorithme de SMITH amp WATERMAN Il est r alis suivant le m me principe Seules quelques modifications interviennent lors de la phase d initialisation la premi re ligne et premi re 8 r ciproquement une fl che verticale repr senterait une insertion dans la s quence de l axe des abscisses Chapitre 4 Comparaison r partie de s quences g nomiques 27 colonne de la matrice sont initialis es 0 les scores sont sup rieurs ou gaux 0 et le pointeur est m moris si et seulement si on a s gt 0 P R 0 BIL
50. informatiques et o se situe galement le secr tariat 5 2 Difficult s d ordre g n ral rencontr es Sur des aspects plut t logistiques j ai prouv les m mes difficult s que la majeure partie des employ s travaillant dans cet espace ouvert li es principalement au niveau sonore lors des communications t l phoniques n cessaires au travail de chacun Concernant le th me de l analyse d image la principale difficult a t plut t li e une adaptation de langage effectuer Il a fallu en effet trouver un langage commun permet tant de manipuler les notions de traitement d images sans consid rations techniques trouver galement la terminologie souvent aid e par l laboration de sh ma et de dessins adapt e afin d expliquer pourquoi des erreurs de mesures taient introduites par l algorithme d ima geJ et pourquoi il n a pas t d velopp de solution alternative Les difficult s rencontr es lors du travail sur l application Web ont principalement t induites par le stade non d finitif de son laboration et par l inexistence de documents de conception Le temps pass l laboration d une documentation a t parfois d concertant 11 entreprise tant en pleine expansion son d m nagement dans d autres locaux est en cours Chapitre 5 Prise de recul et conclusions 39 J ai par ailleurs d insister grandement sur la n cessit de l
51. ionnalit s Cette nouvelle version de l application GIO est principalement caract ris e par l ajout au niveau de la partie administration de l interface utilisateur d une page JSP permettant l envoi vers le serveur h bergeant celle ci des fichiers de relev s m t orlogiques fournis par l institut national de m t orologie Un bean Java r alise le parsing du fichier et l envoi des donn es via des requ tes SQL Ce bean Java a t d velopp l aide de l application Java externe r alisant ces m mes fonctions Il a fallu dans un premier temps comprendre le fonctionnement de celle ci afin de l int grer l application web sous la forme d un fichier jar fournissant des biblioth ques de fonctions Elles comportent la possiblit de parser des fichiers au format MICROSOFT EXCEL de connection une base de donn es POSTGRE via pont JDBC Ce bean a donc t int gr a l application et est instanci lors de l ouverture de la page JSP L envoi des fichiers a t r alis par l achat d un autre composant java lui aussi sour la forme JavaBean permettant de g rer l upload de fichiers vers un serveur et a consist 4 son int gration au sein de l application via la m me page JSP 3 4 Mise en perspectives Plusieurs choses restent explorer au sujet de l volution de cette application comme la conformation aux sp cifications de Sun les Enterprise Java Bean
52. its de la classe ImageProcessor dont la si gnature est d taill e dans la documentation de API d IMAGEJ Cette premi re phase tant r alis e on dispose alors d une copie des donn es qui nous sont disponibles en entr e du filtre et sur lesquelles on peut d sormais travailler et cel sans risque de corruption des donn es originales Le traitement effectu est le suivant on dispose du tableau de pixels l adressage des pixels ne sera pas d taill partir du processeur associ l image de sortie byte pixels byte inv_ip getPixels Il suffit ensuite de parcourir ce tableau chaque ligne de la region d int r t avec deux boucles imbriqu es et d inverser chaque pixel On conclue en affichant l image par les deux m thodes suivantes show et updateAndDraw Principaux concepts d IMAGEJ Images elles sont repr sent es par les objets ImagePlus leur typet est sp cifi par une constante on peut lui donner un titre acc der sa taille Processor c est l objet sur lequel on peut manipuler l image laquelle il est associ lors qu on souhaite appliquer des filtres ou directement travailler sur les pixels de l image Il est nomm ImageProcessor R gion d int ret c est un rectangle de type java awt Rectangle qui permet de limiter la zone d action pour les filtres et les diff rentes op rations qu on souhaite r aliser 11 configuration
53. letely unworkable without the assistance of data processing tech niques Computing has become an essential tool for collection management and exploitation of data to determine identify and elucidate the function of genomic sequences turning in formation into knowledge Massive in silico screening of sequences is made by algorithms and only those matching selected criteria will be tested by expensive in vivo experiments to prove their putative biological function Computer science is also the cornerstone to re solve problems of evaluation and statistical processing of experimental results This report summarizes the activities carried out during my training period at NEWBIOTECHNIC S A from March 2004 to August 2004 in the fields of image analysis maintenance and update of a Web application and design and deployment of a parallel computing framework for the comparison and annotation of genomic sequences The image analysis was implemented to solve a problem related to bimodal images seg mentation aimed to quantify the growth of plant roots during a experimetal period The application is based on the java opensource software for scientific image processing ImageJ and looks like a graphic user interface displaying side by side the original image and the result of the segmentation outlines and measured area of each entity The work on the Web application had two steps the graphical documentation of this three tier architecture application w
54. ls S lections a la souris Controle Noyau Applicatif ImageJ fonctionnelles Plugins IHM Fen tres d affichage des images Nouvelle IHM Fen tre unique d affichage pr post traitements FIG 2 1 Du pilotage des fonctionnalit s d imageJ la pr sentation des r sultats Chapitre 2 Mesure semi automatique de la surface de racines 10 2 2 2 Notions d analyse d image Dans cette p riode du stage o je me suis concentr sur des aspects ayant plus trait au trai tement d image j ai pu me documenter sur les notions mises en oeuvre dans de tels syst mes afin de choisir les filtres et algorithmes ad quats Le probl me r soudre s inscrit clairement dans le cadre de la Segmentation d images Son but est d laborer une description structu relle de l image identifier dans notre contexte chaque entit d une image une entit tant caract ris e par une racine Cette description peut ventuellement prendre la forme d une image mais galement celle de n importe qu elle autre donn e caract ristique de ces entit s L identification consiste finalement associer chaque pixel de l image une tiquette Elle doit donc simplifier l image c est dire sa quantit d informations sans r duire de mani re trop importante son contenu Il existe de nombreuses approches et on sait d sormais qu une segmentation id ale n existe
55. ltre r hausseur il accentue les hautes fr quences qui repr sentent sur limage les changements rapides d intensit L image est convolu e avec la pose Lo z a c est dire que la valeur de chaque pixel est multipli e par 5 et on lui soustrait la somme matrice de ses voisins T pouvant facilement tre tendu au cas continu Saussi appel e noyau de convolution Chapitre 2 Mesure semi automatique de la surface de racines 11 Seuillage On consid re le cadre des images en niveau de gris Cette tape consiste segmenter l image en plusieurs classes en ne se basant que sur son histogramme A chaque pic de l his togramme on associe une classe Plusieurs types d algorithmes existent pour r aliser cette op ration d t ction des vall es de l histogramme minimisation de la variance intra classe seuillage entropique par maximisation de l entropie r sultant du d coupage suivant plu sieurs classes par maximisation du contraste de limage On se situe dans un contexte o les images sont a priori bi modales l histogramme comporte en effet deux pics celui caract risant une entit de l image une racine et celui caract risant le fond de l image il a t choisi de photographier les racines au demeurant claires sur un fond sombre afin de faire ressortir clairement ces derni res L algorithme qui a t choisi est celui d OTSU La m th
56. m mes s quences comme mentionn pr c demment Par ailleurs pour rendre la manipulation des s quences plus facile et afin de limiter les requ tes la base de donn es 2 j ai choisi de m moriser au cours de l ex cution de l application des descripteurs constitu s d un identificateur et du nom de la s quence Seul l identificateur ou la descrip tion de la s quence aurait suffit il semble donc possible d optimiser l usage de la m moire en ne m morisant que le nom de la s quence ou en ne m morisant que son identificateur 4 4 5 Interface Homme Machine Bien que fonctionnelle cette application n est toujours pas exploitable par des utilisateur non programmeurs En effet il s agit d offrir l utilisateur final plusieurs choses indiquer au logiciel la source des s quences et la destination des r sultats indiquer 6u se situe le serveur de gestion de la grille et comment y acc der choisir le type de traitement effectuer sur les s quences contr ler le d marrage la pause et la suppression d une t che x cut e par la grille de calcul et en visualiser la progression J ai r alis l aide de SWING une interface graphique se pr sentant sous la forme d une fen tre unique avec diff rents onglets permettant de configurer les sources et destinations 20i y a des phases de lectures et d critures on n cessite en
57. menu et de barres de r glage r sultats d analyse ils sont affich s dans une fen tre s par e via un composant SWING JTable Il est par ailleurs possible d exporter cette table dans un fichier ASCII que l on peut importer directement dans un quelconque tableur assistance l utilisateur elle est carcat ris e par des JTooltips sur les objets de contr le le n cessitant et par une fen tre d aide comportant un petit manuel d utilisation L annexe A 1 de la page 42 illustre avec un diagrame de s quence UML la dur e de vie et les comunications inter objets lors du traitement d une image Chapitre 2 Mesure semi automatique de la surface de racines 17 2 4 Mise en perspective regard critique Retours quant l utilisation du nouveau syst me Ils ont t relativement positifs et ses avantages ont t s formul s ainsi rapidit il faut maintenant moins de 5 minutes pour traiter chaque image il en fallait plus d une vingtaine avec l ancien protocole utilisant deux logiciels simplicit tous les traitements sont int gr s et automatis s au sein d une interface graphique constitu e d une seule fen tre Un seul param tre est ajustable le seuil de binarisation ouverture les r sultats de la segmentation sont exportables sous la forme d une table ascii facilement importable dans un tableur pour traitements statistiques ult rieurs Il a par ailleurs
58. n logement dans une r sidence me laissant le temps de trouver un h bergement fixe sur S ville Enfin je souhaite remercier particuli rement JACQUES NICOLAS responsable du projet Symbiose de VIRISA pour le temps qu il a pu me consacrer avant mon d part afin de m expliquer les activit s informatiques li es aux projets de s quencage d ES Ts et MARIE THERESE MISSET professeur de l universit de Rennesl pour ses r ponses mes questions d ordre biologique R sum Les avanc es de ces quinze derni res ann es en g n tique caract ris es par exemple par le d cryptage de g nomes entiers sont l origine de la naissance et de la croissance d un grand nombre d entreprises d di es aux biotechnologies En effet ces g nes d crypt s sont d terminants des caract ristiques et fonctionalit s biologiques du vivant Les donn es g n r es et devant tre manipul es par ces activit s sont devenues tellement massives qu il n est plus maintenant concevable de travailler sans l aide de l informatique C est en effet devenu dans ces domaines un outil fondamental de fouille gestion et trai tement de donn es pour la d termination l identification et l analyse fonctionnelle des s quences g nomiques transformant l Information en Savoir Celles qui ont r pondu certains crit res d termin s l aide d algorithmes traitement in silico peuvent faire l objet d ex
59. ne tant caract ris par son ARNm il s agit alors cf figure 4 2 de l isoler et de r aliser sa transcription inverse on obtient alors de 1 ADNCc Le clonage et s quen age de ce dernier permettent de produire une s quence exprim e que l on nomme commun ment EST 4 1 2 BLAST Alignements et Similarit s de s quences C est un acronyme pour Basic Local Alignment Search Tool qui constitue une suite logi cielle qui est devenue une pi ce ma tresse dans les domaines couverts par la Bioinforma tique Son principal int r t est de rechercher la similarit entre des s quences biologiques afin d identifier celles qui sont inconnues Plusieurs raisons l ont amen un tel niveau de popularit sa rapidit les projets de s quencage de g nomes entiers sont devenu nombreux Il est maintenant n cessaire de r aliser ces calculs de mani re massive 4i existe galement des lettres d crivants les ambiguit s 5On entend par s quence biologique tant les s quences nucl iques ADN ARN que prot iques Chapitre 4 Comparaison r partie de s quences g nomiques 25 Transcription inverse Clonage Sequencage ARNm EST ACCGTCCGGCA t 4 FIG 4 2 processus de s quencage d un EST sa fiabilit elle peut tre caract ris e tant sur un plan statistique que sur des points de vue p rement informatiques sa flexibilit il
60. ne consid re qu une seule branche c est pour cela qu en pratique on ne travaille que sur une s quence G ne C est l unit fonctionnelle de la s quence en d autres termes les instructions et r gulations pour la production de prot ines Il peut tre vu comme un mot du langage ARN mol cule proche de l ADN mais constitu e d une seule s quence de nucl otides ayant la place de la thymine l uracile U Il en existe de plusieurs types comme ARNm jouant le r le de messager dans le processus de synth se de prot ines prot ines constituent les difices et machineries au sein d une cellule Elles sont chi miquement tr s diff rentes d une mol cule d ADN ou d ARN ce sont des s quences d acides amin s structure unidimensionnelle vu sous cette forme d terminant la confi guration spatiale de celle ci structure tridimensionnelle et ainsi ses fonctionnalit s g nome est constitu par l ensemble de l ADN codant et non codant d un organisme Avec ces quelques notes on peut d sormais expliquer ce qu est un EST et comment il est obtenu On sait que grossi rement 95 du mat riel g n tique n est pas r ellement codant Donc les g nes se situent dans les 5 restant Pourquoi alors s quencer l int gralit de l ADN d un organisme processus par ailleurs relativement couteux si on ne s int resse qu son g nome exprim Un g
61. ne virtuelle JAVA ou d un JRE Il peut tre x cut soit en temps qu applet via un navigateur soit en temps qu application ind pendante Cette solution de traitement d images scientifiques s av re donc tre par nature multi platforme et con ue pour tre libre et ouverte Libre car gratuite Ouverte pour deux principales raisons les codes sources sont t l chargeables et do cument s donc par la nature orient e objet de JAVA facilement modifiables les trai tements sont automatisables l aide de macros et les fonctionalit s d IMAGEJ sont ais ment extensibles l aide de plugins leur laboration fera l objet d un paragraphe par la suite Ses fonctionnalit s s tendent du traitement de piles d images provenant d quipements d aquisition d images m dicales au calcul d aires et la d tection de particules 5 Java Runtime Environment 6Code java disponible sur le serveur Web t l charg sur le navigateur client et execut au sein d une page HTML Chapitre 2 Mesure semi automatique de la surface de racines 9 2 2 Expression du probl me et notions th oriques pour le r soudre 2 2 1 Objectifs de ce syst me d analyse d images Ce syst me doit permettre une personne n ayant pas de connaissances pr alables en image rie num rique encore moins en informatique d effectuer des mesures partir de photogra phies de racines afin d
62. niers On trouve la solution du probl me global en effectuant un backtracking En pratique les choses se passent ainsi On cr e une matrice 2D permettant d apparier les r sidus de s quences que l on remplit l aide d une matrice de score et d une fonction de p nalit valuant les insertions ou d l tions gap Cette matrice est de plus enrichie par des pointeurs permettant d effectuer le backtracking insertion d l tion 7 Match Mismatch 1 Donn es matrice de scores s fonction de p nalit s g et les deux s quences 2 Initialisations M 0 0 9 Mg 90 Moo 9 i 6il existe en effet deux types d alignements locaux et globaux comme par exemple l expression de la solution optimale du probl me en fonction des solutions optimales des sous probl mes Chapitre 4 Comparaison r partie de s quences g nomiques 26 3 Remplissage on consid re la matrice de score simplifi e suivante 1 si les unit s syntaxiques correspondent Match ye O s il y a substitution Mismatch et la fonction de p nalit constante g 1 Mou 1 j 1 Sij enrichie du pointeur N Mij max Mi 15 9 avec le pointeur il Mg avec le pointeur 4 Backtracking permet de d terminer un alignement parmi tous les optimaux en fonction de la matrice M A partir de la derni re cellule remplie dans le cas d un alignement global on remonte vers la vois
63. nter les flux de donn es entre les pages JSP HTML C est un travail qui m a sembl n cessaire si on souhaite pouvoir localiser et tracer les bugs ventuels C est aussi une tape qui m a sembl n cessaire afin de localiser o doivent s appliquer les mises jour La plus importante de celles ci consistera int grer la partie d administration les fonctionnalit s d importation de donn es m t orologiques dans la base de donn es 3 3 Travail r alis 3 3 1 Documentation et maintenance La r alisation de cette documentation n cessit la recherche de tous les liens possibles entre les diff rentes composantes de cette application qui sont des pages appartenant aux deux parties client et administration et des beans Java Le formalisme de repr sentation qui a t induit par cette recherche est celui des graphes Un premier a t r alis mais sa complexit le rend dificilement exploitable constitu de 128 tats et de 368 transitions il a fallu le scinder en deux un ax sur les aspects plus applicatifs l autre sur des aspects communication La figure 3 1 de la page 21 est la l gende de ces graphes lt jsp useBean gt Er a lt jsp forward gt POST via HTML form formulario JavaScript enlace HTML FIG 3 1 l gende des graphes repr sentant l application web Sont donc repr sent s dans ces graphes ses points d entr e
64. ode peut tre r sum e ainsi l homog n it d une r gion est caract ris e par sa variance une grande homog n it implique une faible variance Le seuil est alors calcul pour qu il minimise la variance intra classe D tection de contours Un coutour est une zone de forte variation de niveaux Un indicateur de cette pente peut tre la d tection d un extremum de la d riv e ou d un passage par z ro de la d riv e seconde Ces deux approches constituent ce qu on appelle des m thodes d rivatives calculs de gradients et laplaciens De nombreux filtres existent certains privil giant une direction pour le calcul du gradient Travail sur les images binaires Apr s le seuillage les structures identifier tant filaires racines des parties de celles ci sont parfois d connect es Une op ration de morphologie math matique la fermeture permet l aide d un lement structurant de l image de connecter les particules suffisamment proches Elle consiste appliquer une dilatation puis une rosion avec le m me l ment structurant Cette op ration permet de connecter des particules proches L rosion peut se d finir ainsi on consid re X la particule roder par l lement structurant B il s agit de r pondre la question B est il contenu enti rement dans X et la traduction formelle serait Y tant l rod de X Y xe X B c xX La dilat
65. on will describe automatic processing through an ImageJ plug in A 3 Manual processing A 3 1 Image to process the photo of roots First of all we need to open the software in WINDOWS or MACOS a simple double click on IJ jar will works well in LINUX or UNIX like we need to execute the script run in a shell with run Then using the standard menu we open the photo File Open Planta 14 dias Longitud Media 36 36 mm NBT 3 8 dias 10e6 esp r Figure A 2 Roots with unknown area A 3 2 Pre processing This step consists in converting nicely the color photo to black and white We need to transform is type to Gray 8 bits It s done by hitting the menu Image Type 8 bits Eventually we need to adjust the contrast by the Chapitre A Mesure de croissance de Racines via ImageJ A3 Image Adjust Brightness Contrast menu The critical point consist in setting nicely the parameters of the Threshold filter Image Adjust Threshold tei P 1 a Be e ajja 368x250 pixels 8 bit 93K Figure A 3 Conversion of a gray image to a binary image Chapitre A Mesure de croissance de Racines via ImageJ 44 Figure A 4 Image used to determine the area of roots A 3 3 Analysis of particle counting and measurement The first step consists in setting up the measurement Analyze Set Measurement as in the following picture E Area _ Mean Gray Valu
66. ors de la mise en place d une grille de calcul d finition d un travail effectuer par la grille s quence d ex cution des modules de l application sources et destinations des flux de donn es Diagramme de s quence UML lors d un traitement d une image Roots with unknown area Conversion of a gray image to a binary image Image used to determine the area of roots Parameters of measurement Parameters of the analysis Results of the analysis Extrait de la cartographie de l application Web ax e communication Extrait de la cartographie de l application Web ax e application ensemble des packages du programme BlastOnAGrid mod le statique de BlastOnAGrid 10 13 14 16 17 18 21 25 26 l 33 34 36 42 43 A4 45 45 46 46 49 50 l 52 Liste des tableaux 4 1 Remplissage de la matrice de programmation dynamique avec l algorithme de NEEDLMAN CO NNUNOO ete rai RSR SR an als oes 4 2 Backtracking pour determiner l alignement global n noa a 2 4 3 matrice de l algorithme de SMITH amp WATERMAN
67. ossible lors de la mise en place d une grille de calcul Celle ci est caract ris e par deux r saux locaux LAN au sein d un r seau grande chelle WAN Ce serait par exemple le cas de deux d partements d une m me entreprise en deux lieux disc tincts Elle comporte deux serveurs ou plus afin de garantir une tol rence aux pannes et de multiples agents I est galement possible dans le contexte d une machine multi processeurs d associer celle ci un serveur et un agent La d finition du probl me au niveau middleware s effectue par deux concepts propres INNERGRID le module et la t che Module Par analogie aux domaines culinaires il est constitu des ingr dients large chelle j entend par l que l on consid re galement les instruments de cuisine et les divers appareils et r cipients Les ingr dients proprement parler seraient les s quences nucl iques ou prot iques les instruments de cuisine seraient quant eux les x cutables du programme BLAST pour chaque type d agent ainsi que la matrice des scores Les d tails de la configuration d un module tant propres INNERGRID seules les id es sous jacentes sont voqu es T che En poursuivant cette analogie une t che correspond la recette de cuisine en d autres termes comment le travail effectuer doit tre divis le serveur affectant ainsi l ensemble des agents une partition
68. p rimentations co teuses in vivo afin de prouver leur responsabilit dans un m canisme biologique Elle a galement une importance notoire dans tous les probl mes d valuation et de traitement statistiques de r sultats d exp rimentation Ce pr sent document synth tise les activit s que j ai effectu es durant mon s jour chez NEWBIOTECHNIC du d but du mois de mars 2004 la fin du mois d ao t 2004 dans les domaines de l analyse d image de la maintenance et la mise jour d une application Web et la conception suivie de la mise en oeuvre d un syst me r parti de comparaison et d annotation de s quences g nomiques L analyse d image a t mise en oeuvre dans un probl me de segmentation d images bi modales destin quantifier la croissance des racines au cours d exp rimentation L ap plication se base sur le logiciel java opensource de traitement d images scientifiques IMAGEJ et se pr sente sous la forme d une interface utilisateur affichant l image originale et les r sultats de la segmentation contours et table de mesure de surface de chacune des entit s Le travail sur l application Web s est d roul en deux tapes la r alisation de graphes de documentation de cette application architecture trois tiers dans un premier temps et le d veloppement de nouvelles fonctionnalit s li es la mise jour d une base de don n es m t orologique Il a t accompagn par di
69. plus de la s quence son nom et son identifi cateur Chapitre 4 Comparaison r partie de s quences g nomiques 37 des donn es la grille de calcul la s lection des s quences et le choix du traitement effectuer 4 4 6 Difficut s techniques rencontr es Certaines difficult s ont t prouv es l utilisation du parser BlastLikeSAXParser fourni par la biblioth que BIOJAVA Je pensais en effet que le fichier d entr e de celui ci etait la sortie XML de Blast et non la sortie texte L examen des archives de la liste de diffusion mail de BioJava m a t d une grande aide Une autre difficult a t li e la prise en main de la grille de calcul INNERGRID et de la constitution la main du module Blast a distribuer Une autre difficult est li e au d ploiement de cette application qui doit tre simple et comporter toutes les librairies n cessaires en limitant les conflits avec les diff rentes versions de la Java Virtual Machine Ce qui a n cessit un grand investissement a t de faire comprendre que la mod lisation UML n avait pas pour principal objectif de documenter l application sinon de se donner des bases communes pour r fl chir sa conception 4 4 7 Evaluation des performances Auparavant les s quence taient compar es via l inteface web du NCBI et n cessitaient entre 3 et 5 minutes de calcul sans compter la mise en file d attente lorsque le
70. processing gt lt _ Consomateur de resultats archive ZIP des sequences cible N N i NO N x Sequences les plus Similaires annotees N et eventuellement d autres Alban Gaignard alban newbiotechnic com 27 07 2004 FIG 4 6 s quence d ex cution des modules de l application sources et destinations des flux de donn es Chapitre 4 Comparaison r partie de s quences g nomiques 36 4 4 4 Choix de conception mod lisation Ce paragraphe justifiera dans un premier temps le choix du langage de programmation et pr cisera par la suite certains points ayant trait 4 la mod lisation objet du syst me Une telle plateforme peut tre vue de mani re minimaliste comme un simple pipeline de traitement de donn es Il aurait pu en effet se pr senter sous cette forme aquisition d un ensemble de s quences provenant d une base de donn es envoi de celles ci la grille de calcul rapatriement des r sultats puis enfin envoi de ces derniers une base de donn es Le choix du langage de programmation a t contraint par le kit de d veloppement INNERGRID SDK Il nous contraint en effet choisir parmi deux langages dits Orient s Objet C et JAVA et un langage de script fameux dans la communaut scientifique pour ses nombreux packages de traitement de donn es biologique et de cha nes de caract res PERL Voici un bref aper u des technologies
71. r l application Web GIO sous la forme de deux graphes l un tant ax application l autre tant ax communication de donn es entre les pages J ai par ailleurs fait voluer celle ci en ajoutant des fonctionnalit s d importation de donn es m t orologiques et en testant la possibilit de g n rer automatiquement les r sultats avec une pr sentation adapt e au format papier Le travail le plus important que j ai r alis durant la moiti de ce s jour consiste en la conception et au d veloppement d une plateforme de comparaison r partie de s quences g nomiques fond e sur la programmation de la grille de calcul INNERGRID Elle permet l x cution en parall le du programme BLAST sur une base de donn es locale de s quences g nomiques Le gain de temps avec les machines disponibles dans l entreprise est all lors des tests jusqu un facteur 9 Le nombre de s quences analyser tant tr s important ceci repr sente un gain de temps consid rable Dans ces trois domaines j ai propos par ailleurs activement mon avis et mes r flections sur les am liorations apporter et sur les compromis effectu s 5 4 Conclusion Ce s jour en entreprise m a permis d apporter NEWBIOTECHNIC des solutions techniques et m thodologiques certaines n cessit s exprim es de mani re formelle ou informelle comme par exemple la migration vers des outils libres
72. r le meilleur alignement local Chapitre 4 Comparaison r partie de s quences g nomiques 28 4 1 3 Grid Computing Une grille de calcul consiste en un ensemble d quipements informatiques connect s en r seau afin de mutualiser les ressources Le concept de grille de calcul tend s approcher de celui d un r seau lectrique En effet ce dernier fournit via une interface plus ou moins nor malis e la prise de courant les ressources sollicit es La complexit du r seau fournissant les services est masqu e l utilisateur Par ailleurs la consommation d un usager peut varier sans pr avis Ces trois points illustrent les principales caract ristiques d une grille de calcul Un cas d utilisation simple est pr sent en 4 3 1 la page 29 4 2 Probl matique Nous venons de montrer que les calculs n cessaires la comparaison et l identification apr s analyse des r sultats de s quences sont grandement consommateurs en m moire et temps de calcul complexit en O 2 pour comparer deux s gences de taille n Afin d identifier la masse de s quences g n r es par le projet TrichoEST il serait n cessaire d investir dans l achat de super calculateurs extr mement couteux Une solution alternative moindre co t consiste alors mutualiser les ressources informatiques de l entreprise gr ce la mise en place d une grille de calcul et d velopper une platefo
73. r of the back ground usually it s white Then in the same menu you can operate the morphologic operation close in order to reconnect particules and smooth shapes A 4 Automatic processing A 4 1 How To It s supposed that an 8 bits gray image is opened see the first section of this document and that a region of interest is selected the first tool of the ImageJ s toolbar In order to enhance contrasts you can adjust it as in the pre processing section Then you execute the plugin in the Plugins menu In the case of a system failure installing it from scratch consists in installing the soft ware IMAGEJ anywhere on the harddrive and executing the plugin manually by hitting the menu Plugins Compile and run and browsing as the location of the file CUANTIFICACION_DE_RAICES java A 4 2 Summary of the process 1 determine the ROI Region Of Interest 2 create a new ImageProcessor and then a new image copy of the ROI 3 process a HighPass filter to let imageJ determine efficiently the shapes 4 set up the Threshold filter by the parameters min and max 5 finally tell the plugin Particle Analysis with the flags e SHOW_RESULTS e SHOW_PROGRESS e SHOW_OUTLINES e CLEAR_WORKSHEET with also the second parameters as e AREA e LIMIT and the others parameters as a new ResultTable the min size of a particle 300 and the max size 999999 Chapitre A Mesure de croissance de Racines via Image
74. raction avec l utilisateur s est av r n cessaire afin de superviser les mesures De plus les traitements effectu s par ce dernier ont volu vers cette forme r sum par le sch ma de la figure 2 4 pilot s par une interface graphique d crite en section 2 3 4 Otsu s method A region s homogeneity is measured by is variance high homogeneity implies low variance The threshold is selected by minimizing the within class variance of the two classes of pixels it supposes a bimodal distribution of the gray levels ImageJ s analyze particle filter Algorithm for each line for each pixel of the line if the pixel is inside the threshold range then trace the edge to mark the object do the measurment fill the object outside the threshold range else continue the scan FIG 2 4 suite des traitements appliqu s l image traiter 2 3 4 D veloppement d une IHM Le temps imparti pour la r alisation de ce syst me d analyse d images a t relativement court Ayant auparavant r alis un stage avec un sujet similaire au sein de l universit j ai 166u dans un de ses sous dossiers 17 Java Development Kit 18sous la direction de Patrick Bron Chapitre 2 Mesure semi automatique de la surface de racines 16 pu m inspirer fortement de l interface graphique que j avais r alis cette poque Design Une copie d cran de l interface figure 2 5 de la page 17 permet d
75. rme logicielle permettant son exploitation pour l analyse et l annotation de s quences 4 3 Projets similaires outils disponibles La solution qui a t choisie n est videment pas unique Sun a d velopp un syst me de grille de calcul opensource et propose une solution la parallelisation de Blast sur leur grille 7 Par ailleurs de nombreuses soci t s ont d velopp des solutions grille ce probl me comme MESH TECHNOLOGIES avec OfficeGrid Blast APPLE avec sa technologie XGrid Le choix de INNERGRID a t effectu pour des raisons conomiques et afin de poursuivre un partenaria avec l entreprise 4 3 1 InnerGrid InnerGrid est une plateforme logicielle d velopp e et distribu e par la soci t GRIDSYSTEM qui permet au sein d un r seau h t rog ne d quipements informatiques de b n ficier de la puissance de calcul disponible et de mani re plus g n rale des ressources informatiques inutilis es Un exemple pratique d utilisation d une telle plateforme va nous permettre de mieux cerner l int ret de cette pateforme Consid rons le th me de la conversion de formats vid o Ce sont en g n ral des t ches n c cissitant des calculs relativement lourds monopolisant ainsi un quipement d di pendant une dur e importante Celle ci peut tre tr s largement r duite s il est possible de morceler l animation Chaque fragment est ainsi
76. s quencage d ESTs NBT coordonnant le projet internationnal de g nomique fonctionnelle TRICHOEST son laboratoire de biologie mol culaire effectue de nombreuses t ches de s quencage Une des principales activit du d partement de bioinformatique est de mettre en oeuvre des structures et des outils ayant pour but de stocker et d analyser la masse de donn es g n r es par ce type de projets 4 1 1 Quelques notes de Biologie Afin de pouvoir comprendre la terminologie cette section comportera quelques courts para graphes traitant des notions biologiques manipul es au cours de ce stage et s adresse donc a des gens qui comme moi ne sont pas sp cialistes en g n tique Par analogie un programme informatique on peut consid rer que l information g n tique est le programme r gissant le fonctionnement des cellules C est en effet le code permettant un organisme de synth tiser des prot ines Le Dogme Central de la Biologie Mol culaire 3 a t introduit la fin des ann es 1950 par Francis Crick et tablit le lien entre information g n tique d tenue par une cellule et ses fonctionnalit s c est dire les prot ines qu elle peut synth tiser En voici un tr s simple r sum Dans un premier temps la r plication conforme de la mol cule d ADN lors de la mul tiplication cellulaire permet de conserver le mat riel g n tique donc l identit
77. serveur est sollicit par de nombreuses requ tes Du fait du caract re non d di des machines de la grille chaque s quence est trait e plus lentement mais le gain est notoire si on consid re la parall lisation d un grand nombre de traitements Des tests ont t r alis s en lan ant la comparaison de 2000 s quence sur la grille et le speedup atteint tait de l ordre de 9 On va donc 9 fois plus vite que si la comparaison tait lanc e sur un seul quipement Cette rapidit est th oriquement proportionnelle au nombre de noeuds de la grille 4 5 Mise en perspective J avoue avoir t parfois un peu d concert quant a la difficult de faire prendre conscience de importance de la mod lisation objet de ce projet mais je suis satisfait d avoir pu me faire comprendre et avoir fait projeter le d veloppement d une famille de logiciels sur ce m me mod le en ne changeant que le noyau de traitement et le parser de r sultats Ces projets ont d ailleurs t approuv s au sein de l entreprise car un nouveau stagiaire a t recrut pendant mon dernier moi de stage afin de poursuivre le travail dans ce sens c est dire d velopper un autre module de traitement des s quences accompagn du parser de ses r sultats Interproscan Par ailleurs la commercialisation de ce type d application est envisag e lorsque sera mise en place une base de donn e de d monstration 21
78. tent de m moriser les param tres de connection la base de donn es l origine des donn es nom de la base de donn es de la table la destination des r sultats et la configuration de la grille de calcul adresse IP du serveur port de communication utlilis groupe de machines auquel on attribue la t che etc Ces trois objets sont illustr par le diagramme statique de leur classes correspondantes la page 52 Ce pr traitement est alors caract ris par quatre tapes et est r alis en grande partie par un objet de connection la base de donn es Il fournit des services d ouverture et de fermeture de connection Il permet aussi de r aliser les deux autres tapes qui sont dans un 15 premier temps la cr ation d une table de descripteurs de s quences un descripteur tant caract ris par l identificateur de la s quence au niveau du SGS et une description qui n est rien d autre que le nom de cette s quence et par la suite l criture locale des s quences au format FASTA C est un fichier texte dont la premi re ligne d bute par le caract re gt suivi de diverses informations sur cette s quence les meta donn es et d un retour la ligne La suite du fichier correspond la s quence proprement dite c est dire la suite des acides amin s ou des nucl otides Enfin ce pr traitement s ach ve lors de l envoi des s quences la couche middle
79. terminaison La gestion des processus l gers threads tant relativement facilit e par le langage Java le module r alisant l interface entre cette application et la grille de calcul a t d velopp de telle sorte que lorsqu un r sultat est pr t il est automatiquement t l charg et trait de mani re ind pendante Ceci s est av r n cessaire du fait de l h t rog n it des machines et de la variablilit de la taille des s quences analyser Les temps de calculs des micro t ches tant donc tr s variables les r sultats apparaissent sur le syst me de fichier distribu de mani re sporadique Une solution simple consiste r aliser un thread se bloquant dans l tat en attente qui p riodiquement toutes les dix secondes par exemple xamine sur le disque local la pr sence d un r sultat provenant de la grille Dans ce cas un autre thread se chargeant lui de parser le r sultat est instanci et d marr Cette solution fond e sur l attente active est int ressante dans le cas d un traitement massif des s quences car les r sultat sont envoy s la base de donn e de mani re progressive En ce qui concerne le parsing proprement dit il a t choisi d utiliser la biblioth que BIOJAVA qui permet de traiter des donn es biologiques Parmi la masse des services qu elle peut fournir elle contient d j un parser permettant de r
80. ues 1 5 L quipe J ai t dirig tout au long de ce s jour chez NBT par FRANCISCO JAVIER GONZALES Fran responsable du d partement de bioinformatique docteur en pharmacie et expert en bioinformatique et calcul intensif il a en effet t responsable du centre de calcul de Salamanca a l Institut de Recherche contre le cancer Il m a orient afin d aller toujours vers les solutions les plus pratiques et les compromis les plus acceptables en terme de performances et temps de d veloppement Durant ce stage j ai travaill en collaboration avec diverses personnes selon les domaines auxquels se sont appliqu s mes travaux MARTHA ISABEL GOMEZ ALVAREZ du d partement de phytopathologies a utilis le logiciel que j ai d velopp afin de quantifier la croissance des racines d une s rie d exp riences et d effectuer l exploitation statistique des r sultats RAFAEL ZAMUDIO m a aid d finir le travail effectuer dans la mise jour de l application de gestion int gr e de l oliveraie Mon maitre de stage FRAN ayant d velopp le syst me de gestion et de suivi d chantillons s quences g nomiques cf 4 4 1 il m a particuli rement aid dans l laboration du syst me d analyse r partie de s quences Chapitre 2 Mesure semi automatique de la surface de racines 2 1 Besoins sp cifications informelles 2 1 1 Contexte biologique Trichoderma est
81. verses modifications d interface utilisateur et d extraction d informations sur les erreurs survenues Le d veloppement d une plateforme de comparaison r parti de s quences g nomique se fonde quant lui sur le grid computing et a consist en la prise en main de la technologie de grille de calcul fournie par GRIDSYSTEMS du d veloppement de modules pour celle ci et enfin du d veloppement d une plateforme d analyse fonctionnelle de s quences pilot e par une interface homme machine Elle permet la recherche des s quences dans une banque de donn e la cr ation d un module BLAST pour la grille et le traitement des r sultats de comparaison afin de les stocker galement dans une base de donn es Ce document s articulera donc apr s une courte pr sentation de l entreprise autour de ces trois th mes qui seront plus pr cis ment introduits notamment resitu s dans leur contexte dans chacun des trois chapitres avec un ordre relatif la chronologie de ces travaux Abstract Breakthroughs on Genetics since the last 15 years fueled by the cracking of whole gen omes are the base for the start up and growth of a great number of Biotech companies Indeed these deciphered genes determine the main characteristics and biological functions of every living organism The amount of raw data produced and to be handled by these research activities is extremely huge and comp
82. ware en constituant une archive au format ZIP avec celles ci Cette op ration est en effet n cessaire afin de ne pas surcharger le serveur de la grille de calcul On a pu observer qu au dessus de 1500 s quences envoy es le serveur ne r pond plus correctement aux requ tes Il a donc fallu les envoyer sous la forme d un fichier unique Le choix du format ZIP s est impos car API d INNERGRID n offrait que ce type de compression d compression au niveau du syst me de fichiers de la grille de calcul Ce pr traitement peut donc se r sumer ainsi rapatriement local des s quences souhai t es cr ation de la table des descripteurs et constitution d une archive ZIP de ces s quences 14SGS Sistema de Gesti n y Seguimiento de muestras 15qui nous servira tout au long du processus cf UML res package Chapitre 4 Comparaison r partie de s quences g nomiques 32 4 4 2 Traitement des donn es Le noyau de l application a pour but d envoyer via la grille de calcul une partition des donn es chacun des agents en fonction de sa disponibilit et de ses ressources Chaque agent traitera donc une fraction du travail global a effectuer La figure 4 4 de la page 33 illustre un exemple d infrasctructure pour ce type d applications A Agent de calcul Serveur de la grille O Systeme de fichiers distribu gt envoi de micro taches FIG 4 4 infrastructure p

Download Pdf Manuals

image

Related Search

Related Contents

Pioneer SE-CX9-S mobile headset  Instructions for use  User Manual  BEE-SCENT®  Elite Screens TE100HW2 projection screen  

Copyright © All rights reserved.
Failed to retrieve file