Home
Análisis estad´ıstico megavariado de datos de alta
Contents
1. 234 7 9 k Funci n alternativa de cluster no jerarquizado L do Si 10 A i jCA da teat tO 11 J Funci n de error A icA 5 Las rutinas desarrolladas se compararon con las que ofrece el sistema R Encon tr ndose mejor ejecuci n en R pero sujeto a los parches que se ofrecen en el sitio web El sistema final puede ejecutarse como script tanto en ROOT como en R de manera independiente Se sugiere trabajar en ROOT e instalar las rutinas de conexi n con R dado que ROOT ya tiene conexiones semiautom ticas a Clusters de c mputadoras 4 en caso de que la cantidad de datos solicite ejecuciones m s demandantes El programa en su m dulo de PCA se compar con uno ofrecido libremente 3 obteni ndose 942 ROOTMARKS para el desarrollo propio y 817 ROOTMARKS para el ofrecido en la web Se aclara que el ofrecido en la web esta escrito principal mente en JAVA y C Como manejador de bases de datos se empleo mysql 5 0 27 con mysql connector odbc 3 51 12 ambos suministrados en el disco de instalaci n Finalmente y con la experiencia adiquirida se propuso un modelo de datos basado en el estandar de el GenOntology Project 4 Resultados Se dise desarroll e implement el m dulo de Software para an lisis PCA y PLC de datos el cual se anexar al software Contador inteligente de c lulas sangu neas software desarollado con apoyo del IPN en proyecto anterior Am bos softwares estar n disponibles
2. A la fecha existen tres bases de datos entre otras que ofrecen aceso libre a sus bases de informaci n a saber EMBL European Molecular Biology Laboratory Base mantenida por European Bioinformatics Institute in Cambridge UK 1 1 a GenBank Mantenida por National Center for Biotechnology Information in Maryland USA J DDBJ DNA Data Bank of Japan Mantenida por National Institute of Genetics in Mishima Japan 3 Informaci n obtenida de GenBank sugiere un crecimiento exponencial ver Fig 1 en la cantidad de datos provenientes de secuenciaciones por esto se necesita de nuevos m todos computacionales adem s de mejores algoritmos y sistemas de clasificaci n de datos m s eficientes ontolog as Para hacer frente a este tipo de problemas surge la Bioinform tica la cual es el desarrollo de m todos computacionales para estudiar la estructura funci n y evoluci n de genes prote nas y el genoma como un todo 1x 1087 Tm 1x 106 rem 10000 AE pa Number of sequences A Moore s law Exponential growth L mrmr 100 1 1 1 L 1 1 1 1 1970 1980 1990 2000 2010 Year Figura 1 Velocidad de crecimiento de la cantidad de datos registrados en el GenBank sequence comparados con el n mero de transistores usados en computadoras personales Fuente www ncbi nih gov Genbank genbankstats html Las tendencias modernas de an lisis de datos tienen como filosof a el estudiar grupos de
3. genes en conjunto en lugar de considerar casos individuales Para esto entre otras t cnicas se emplea el An lisis de componentes principales PCA por sus siglas en ingl s El PCA ofrece una manera de visualizar las caracter sticas realmente importantes en un conjunto multidimensional de datos El m todo construye un conjunto de coordenadas que se expresan como combinaci n lineal de las variables originales de forma tal que la m xima variabilidad entre los datos se explica en t rminos de pocas coordenadas Una t cnica m s para estudiar este tipo de datos es el an lisis de clusters el cual se encarga de buscar patrones en conjuntos complejos de datos Los an lisis de clusters se subdividen en jer rquicos y directos sin embargo dada su construcci n matem tica el an lisis de clusters puede aceptar diversas interpretaciones por lo que es necesario de discusiones extensas para concluir el an lisis La meta de este proyecto es realizar un sistema computacional que realice PCA PLS y an lisis de clusters Se probar el sistema con datos provenientes de estudios para deteccci n de cancer Se enfatiza que Jes s Mart nez no tom dato alguno y que solo es responsable por el dise o e implementaci n del software de an lisis el cual se describe en la siguiente secci n 3 M todos y materiales Se empez el proyecto evaluando las versiones comerciales de software que rea lizan este tipo de an lisis poni ndose especial ate
4. Analisis estadistico megavariado de datos de alta densidad en diagn sticos m dicos sobre riesgos de c ncer hep tico Jes s Alberto Mart nez Castro Centro de Investigaci n en Computaci n Susana Reyes Cadena Instituto Nacional de Rehabilitaci n 1 Resumen Se describen los m todos computacionales empleados en el an lisis de Componentes principales y M nimos cuadrados parciales en estudios sobre el c ncer Parte fun damental del presente trabajo consisti en instalar y en adecuar las clases que se ofrecen en el sistema de an lisis estad stico R y comparar su funcionalidad con el sistema ROOT y programas comerciales como Matlab evaluar su funcionalidad ante an lisis demandantes gran cantidad de datos y comparar su nivel de ejecuci n en clusters de alto rendimiento instalados espec ficamente para ofrecer en un futuro cer cano el servicio de an lisis de datos Bioinform ticos a la comunidad Polit cnica por parte del Centro de Investigaci n en Computaci n Por acuerdos de confidencialidad y por criterios de comparaci n de resultados con otros desarrollos de software se emplear n para este reporte exclusivamente datos accesibles al p blico en general cuya fuente se describe en el texto 2 Introducci n En d cadas pasadas ha habido un gran aumento en la cantidad de datos provenientes de secuenciaciones de ADN esto se debe en gran medida al xito que han tenido los diferentes experimentos en secuenci n gen mica
5. de manera libre y gratuita en la p gina web del investigador a la cual se podr acesar por medio de la pagina del CIC http www cic ipn mx El estudio con el software permitir por un lado entender un poco m s la evoluci n de la enfermedades analizadas por microarreglos ver descripci n de datos de entrada en el manual de instalaci n de m dulos extras y por otro permitir la clasificaci n ontol gica de los datos http www r project org 2http root cern ch 3http astro u strasbg fr fmurtagh mda sw http www geneontology org Los datos y resultados generados se clasificar n e indexar n gracias a su estructura ontol gica ver manual del usuario en una base de conocimiento que podr ser aplicada a sistemas de control de diversos tipos de c ncer Como parte de un futuro proyecto de investigaci n se espera acoplar un m dulo extra para poder realizar los ana lisis desde dispositivos m viles como PDA y o celulares 5 Impacto El software Contador inteligente de c lulas sangu neas desarrollado previ amente en proyecto IPN se encuentra en pleno uso en el Instituto Nacional de Rehabilitaci n hospital de la Secretar a de Salud desde Agosto de 2008 El software Software para an lisis PCA y PLC de datos se usa en etapa de prueba de prototipo en el Instituto Nacional de Rehabilitaci n desde Noviembre de 2008 Se anexa constacia de uso de software y prueba de prototipo en los comprobantes que se ent
6. esi n de datos en t rminos de ejes principales a Datos originales b Datos escalados y centrados en el origen c Rotaci n sobre ejes principales Se consider que N el n mero de objetos en nuestra muestra y P el n mero de colum nas sujetos de estudio muestras propiedades Se procedi a calcular la matrix de coeficientes de correlaci n 1 a A Nojor Xy 1s Xn m Dee 1 Los coeficientes estan entre 1 y 1 y se comprob que los vectores V cumplen con x Ong Cre AnUnk 2 J De nuestro an lisis se tom que el primer componente principal es aquel con el eigenvalor mayor los siguientes se tomaron en orden decreciente AM 3 43 do 1 61 3 Se calcul tambi n la varianza a lo largo del nt eje la cual por construcci n se puede demostrar que es igual al eigenvalor correspondiente 1 1 N D U N 5 5 5 UnjZijUnk ik gt 5 UnjCjkUnk 5 AU rn 4 i i j k j k k La fracci n de la varianza total representada por los primeros dos componentes es A A2 3 48 1 61 t 03 5 Se desarroll tambi n un m dulo que ofrece la posibilidad de analisis de clusters con las siguientes restricciones Distancia entre vectores ll 072 6 donde el ngulo esta dado por ver geometr a en Fig 3 Figura 3 Representaci n de cada dato como vector en el espacio de ejes principales espacio multidimensional 1 Ry Pag 2 i Mj Zn mJ 8 distancia considerada dis O zim
7. nci n a Matlab con su Toolkit de Bioinform tica Los resultados de ejecuci n de Matlab se compararon con desarrollos propios en C en gcc gcc 3 4 gcc 4 2 dadas las diferencias en el manejo de flotantes y dado que gcc 3 4 emplea rutinas en F77 a diferencia de gcc 3 4 donde se decidi emplear F95 El m todo de evaluaci n consisti en comparar los ROOTMARKS en corridas y criterios de primera y segunda derivada ver manual de GLOBUS TOOLKIT En las pruebas realizadas Matlab obtuvo 2237 ROOTMARKS nuestros desarrollos obtuvieron 2149 ROOTMARKS por lo que concluimos que las rutinas num ricas ofrecidas por gcc 3 4 eran las mejores para el trabajo de an lisis Por comparaci n un procesador Pentium IV a 2 4 GHz se evalua con 600 ROOT MARKS A continuaci n se procedi a descargar los datos en diferentes formatos de las bases gratuitas Se decidi en su momento usar los datos en formato simple con separaciones de tabulador esto para no depender de ninguna compa ia privada que al inicio ofrezca un sistema gratuito y que de pronto decida cobrar por el servicio Para nuestro caso los datos podr an ser visualizados crudos en cualquier hoja de c lculo o procesador de textos Una vez descargados los datos se procedi a escalarlos y a reescribirlos en t rminos del nuevo origen como se ilustra en la Fig 2 a Xt 90 b z Y o 99 o 9 7 Be Q Q 9 9 ye Xi Q 2 o Q YN X3 3 Y Figura 2 Esquematizaci n de expr
8. regar n a la Direcci n del Centro de Investigaci n en Computaci n del IPN En Febrero de 2009 se propondr extender el uso de ambos desarrollos a hospitales del Seguro Social del interior de la Rep blica para lo cual se propondr un plan integral que contemple capacitaci n y adecuaci n para necesidades espec ficas El hospital que se propone como piloto es el hospital de Iguala Guerrero con quien ya se ha venido interactuando desde hace m s de tres a os con apoyo de proyectos IPN Se menciona tambi n que ambos desarrollos fueron presentados entre las propuestas de colaboraci n M xico B lgica en el Groupe Interdisciplinaire de Genoproteomique Appliquee GIGA de la Universidad de Liege en Liege en B lgica se anexa cons tancia Los desarrollos impactan tambi n en el sector educativo pues facilitan el entendimien to matem tico del estudiante Referencias 1 Stoesser G et al The embl nucleotide sequence database Major new develop ments Nucleic Acids Research 31 17 22 2003 Benson D A et al Nucleic Acids Research 31 23 27 2003 Mizayaki et al Dna databank of japan ddbj in xml Nucleic Acids Research 31 13 16 2003 Plaszczak P Grid Computing The Savvy Manager s Guide The Savvy Manag er s Guides Morgan Kaufman 2005
Download Pdf Manuals
Related Search
Related Contents
Bosch REG Sentry Access Control How to use ZaapTV remote Frequently asked questions I-7560U/7561U/7563U OWNERS MANUAL - CROSSOVER CARD CC224 emarrage rap| SCF355 - Toys R Us Manual de Instrucciones PDF RV N SERIES Copyright © All rights reserved.
Failed to retrieve file