Home
BLOOM – BLAST Object Oriented Management
Contents
1. eee 99 Figura 3 5 1 Exemplo de alinhamento m ltiplo com segii ncia consenso iiieeeeeeeeeeeeeeeeeeeeereree 104 Figura 3 5 2 Exemplo de alinhamento local e global oosooooneeeneeesssssssssssssssssreresssssssssssssseereressssssssssssssseerrreeeeessssss 107 Figura 3 5 3 O processo de alinhamento progressivo ssssssseeeeeeeesssssssssssssrrrrereessssssssssssserrresssssssssssssssserrrreeeeeesss 109 Figura 3 6 1 A estrutura tridimensional da proteina Flavodoxina c ee eerrrreerreeeeeeeereeaaeaeeeeererereea 113 Figura 3 6 2 Exemplo de predi o de estrutura secund ria de proteina parte 1 2 iii 113 Figura 3 6 3 Exemplo de predi o de estrutura secund ria de prote na parte 2 2 i 114 Figura 3 7 1 Esquema de uma rvore filogen tica sssssessssssseeereooessssssssssssorereeecessssssssssreereooesssssssssssssssssereeeeeeessss 117 Figura 3 7 2 Exemplo de cladograma e aninhamento de par nteses correspondente ssoosseenssessssssssssssseesrereesssss 118 Figura 3 7 3 Quadro explicativo dos m todos utilizados na constru o de rvores filogen ticas moleculares 118 Figura 3 7 4 Exemplo de rvore sem raiz e rvore UPGMA correspondente ri eeeeeeeeeeeerrerere 119 Feur A k Crelo devida do RUP aig di DG a 126 Figura 44 1 Esquema do pattern Factory ups gro Latas sai tS iai inca dna ia goi rama rafa 134 Fig
2. essssessssssseereeeeeessssssssrerrereeeseeesesssssssseee 62 Figura 3 3 12 O alinhamento global timo em programa o din mica para as sequ ncias s AAAC et AGC 63 Figura 3 3 13 O alinhamento local timo em programa o din mica para as sequ ncias s AAAC e t AGC 64 Figura 3 3 14 Compara o do grau de diverg ncia entre as matrizes BLOSUM e PAM 75 Figura 3 3 15 Primeira etapa do FASTA localiza o dos hot spots k tuplas 000nnnnnnnnnnnnenonnnnnnnnnnnnnsrrrrrnesssessene 81 Figura 3 3 16 Segunda etapa do FASTA m todo da diagonal e rrrrrereeeeeeeeeaaaneaaarareerrrerreananana 83 Figura 3 3 177 Terceira etapa do FASTA jun o das regi es iniciais de diagonais diferentes cciiii 84 Figura 3 3 18 Quarta etapa do FASTA determina o do alinhamento timo c rrenan 85 Figura 3 3 19 BLAST Compila o de uma lista com palavras de alto escore semente terrenas 90 Figura 3 3 20 BLAST Tabela de busca e compara o das segii ncias do BD com as entradas desta tabela 92 Figura 3 3 21 BLAST Aut mato finito determin stico para reconhecer a palavras vizinhas QL QM e ZL 92 Figura 3 3 22 BLAST Extens o das sementes de cada uma das segi ncias trreeeeeaeeeeeererenenereaerrrrererarenannas 93 Figura 3 4 1 Sequenciamento por clonagem hier rquica e por shotgun
3. Pica Respons vel i Orienta o Data 195 196 f BLAST results for clone B0l esd Projeto Biblioteca Placa Usu rio rclone E E TTTTUU a o teste bibo pacad nat BOL esd i iE i EI EP mim ee Ta N a T a N E blastx yeast aa Dlastns 2000 blastx nt blastx gt ecoliaa blastrr gt est blastn gt ecolint T r a 200 250 300 350 400 450 500 550 G00 gal E E e a E E E E Sele o OOOO EE iY DT meme o D ty E 1 E 7 f E3 Lid Excluir todas Pr xima an lise lt 40 40 50 nina Identification gil27064431emblAJ275172 115TMDSIP Definition Solanum tuberosum mRNA For magnesium dependent soluble inorganic pyrophosphatase E value 3 13381e 10 Bit Score 71040 Hit Start 369 Hit End 489 Huer Sat Ara Ouere Fod 473 l Segu nciadohit o Clone do banco TTAGATACLAA GORA GCAAAGT AAA TAT A OCT OCA CAA TAAA CT OA CTOAT TAA GOT OAOT OTOCI I TGCTCGTCAGTTGTGTATC Alinhamento REEERE TEHTE CEE EER TRETA A RR E A E E E FS E A RG SO E Hi TIGAGATCAGTAAGOGGAGCAM GOT GA GTATCAACTTCACAAAAAAACTOACTOATCAAGOTTCATCOTOTTETTTACTCATCAGTTOTATACC ill m _ h p Ok Eles Figura 0 4 Sistema BLOOM visualiza o gr fica do resultado do BLAST a BLAST results for clone AUZ es
4. Ambiente ou environment abrange a infra estrutura necess ria para o desenvolvimento do sistema Para o Sistema desta Disserta o este fluxo de trabalho est sendo executado conforme o Plano de Desenvolvimento 4 3 JAVA uma linguagem de programa o de alto n vel totalmente orientada a objetos desenvolvida pela Sun Microsystems http java sun com em 1995 e que j se tornou popular em todo o mundo Inspirada no C Java foi projetado com a finalidade de ser obter um produto de pequenas dimens es simples e port til para diferentes plataformas e sistemas operacionais seja em n vel de c digo fonte ou c digo bin rio bytecode ou seja OS programas podem ser executadas em qualquer computador em que esteja instalada a m quina virtual Java JVM Java Virtual Machine Java atualmente utilizada para criar p ginas da Web com conte do interativo e din mico desenvolver aplicativos corporativos de larga escala aprimorar funcionalidades de servidores Web e fornecer aplicativos para dispositivos destinados ao consumidor final celulares pagers PDAs etc sempre fazendo com que os componentes j desenvolvidos possam ser reutilizados Java traz ainda algumas caracter sticas que facilitam o tratamento das quest es inerentes a aplica es distribu das tais como separa o entre c digo e interfaces toler ncia a falhas atrav s da manipula o de exce es suporte a rede e objetos distribu dos seg
5. O o valor de cada c lula tamb m zero fori 1 to m do a rela o recorrente para as c lulas 1 1 m e J 1 n forj 1 tondo ali j max 0 a li j 1 g afi 1 9 1 p ali 1l jl g melhorEscore max a i j melhorEscore o melhor escore return a m n retorna a matriz preenchida Figura 3 3 5 Um algoritmo pseudoc digo para calcular a similaridade local em programa o din mica Esquematicamente os valores calculados passam a ocupar uma determinada posi o em cada c lula sendo que o valor afi j fica posicionado no centro e o valor de p i j no canto superior esquerdo Uma seta posicionada na dire o da c lula ou das c lulas que deram origem ao valor a i m ximo conforme Figuras 3 3 6 e 3 3 7 a seguir baseadas em Meidanis e Setubal 1997 Vide pr xima p gina 59 alij 1 2 4 a 1 1 max lt ali 1 j 1 p ij 1 ondep ij 1 ali 1 j 2 4 Figura 3 3 6 O in cio da computa o tabular para alinhamento global das seq ncias s AAAC e t AGC parte 1 de 2 afij 1 2 6 al4 3 max lt ali 1 j 1 p i j 1 onde p i j 1 afi 1jl 2 3 Figura 3 3 7 O resultado final da computa o tabular para alinhamento global das seqii ncias s AAAC e t AGC parte 2 de 2 Para o alinhamento local as tabelas armazenariam valores diferentes daqueles do alinhamento global apesar de a estrat gia ser a mesma Figuras 3 3 8 e 3 3 9 60 0 a lij 1
6. Subclasse a classe derivada de uma superclasse S Encapsulamento a separa o dos aspectos externos de um objeto dos seus detalhes internos de implementa o Tamb m chamado de ocultamento de dados Vide http www ppgia pucpr br alcides Teaching 2000 dawjaw Encapsulamento ppt Polimorfismo o princ pio pelo qual duas ou mais classes derivadas de uma mesma superclasse podem invocar m todos que t m a mesma identifica o assinatura mas comportamentos distintos especializados para cada classe derivada usando para tanto uma refer ncia a um objeto do tipo da superclasse a chamada sobreposi o A decis o sobre qual o m todo que deve ser selecionado de acordo com o tipo da classe derivada tomada em tempo de execu o atrav s do mecanismo de liga o tardia Vide http www dca fee unicamp br courses PooJava polimorf index html H tamb m o polimorfismo chamado sobrecarga h especializa o de m todo dentro da pr pria classe e n o envolve heran a Vias metab licas o metabolismo celular um conjunto altamente organizado e complexo de rea es bioqu micas catalizadas e reguladas por enzimas Essas rea es se organizam em sequ ncias enzim ticas denominadas VIAS METAB LICAS as quais podem ser anab licas ocorrem com utiliza o de energia e s o n o espont neas e catab licas ocorrem sempre com libera o de energia e s o espont neas Vide http members tripod com medworks B
7. Pearson 2001 Se a op o S for usada blocos de baixa complexidade ser o ignoradas nas etapas a seguir O valor k tuplas afeta a performance do alinhamento no que concerne sua sensitividade e seletividade Quanto ao FASTA e outros programas da mesma fam lia baixos valores k tuplas aumentam a sensitividade e s o desfavor veis para a seletividade enquanto altos valores diminuem a sensitividade e aumentam a seletividade ou seja esses dois conceitos agem de modo antag nico Meidanis e Setubal 1997 Sejam s e t duas sequ ncias de prote na a serem comparadas cujos tamanhos s o denotados por m s e n t A compara o se inicia pela determina o das k tuplas 1 ou 2 comuns a ambas sequ ncias Em adi o o offset contrabalan o de uma k tupla comum importante no algoritmo Esse offset um valor entre n 1 e m 1 que determina o deslocamento de uma sequ ncia em rela o outra ou seja se uma k tupla comum come a na posi o s i Je t j diz se que o offset i j As seguintes estruturas de dados s o necess rias a uma tabela de busca lookup table e b um vetor indexado pelos offsets com valor inicial igual a zero A sequ ncia s rastreada e a tabela de busca contendo todas as posi es de uma certa k tupla em s vai sendo constru da Gusfield 1997 A F H I L Q R v Y Tabela de busca 2 6 4 8 3 5 81 Quanto a DNA isso significa 4 4 possib
8. Exemplo de execu o do BLAST para uma sequ ncia de nucleot deos 0000sneeeessseesseseoeeeeeeeessssssssseseee 4 Figura 1 1 4 Exemplo de resultado da consulta BLAST para uma sequ ncia de nucleot deos cc ie 5 Figura deks Avd plahcice do DINA amais ra a a a S 17 Picur S51 27 A cstrutiTa dO CLOMOSSONO asi au 2a a A 18 Feud R RNA e DN A ia a a A a 20 Figura 3 1 4 Estrutura qu mica do aminoacido scsreisies ii E E EE E a EA EEEE E 21 Fig ra 3 15 054 niveis estruturais de uma protea fa aisai paridade aaa aaa 26 Figura 3 1 6 Lado esquerdo estrutura terci ria da hexoquinase Lado direito estrutura quatern ria da hemoglobina com quatro polipept deos sendo dois alfa globina e dois beta globina ccc e 21 Figura 3 1 7 Lado esquerdo cadeia B da Protein Kinase C Interacting Protein e corresponde estrutura em azul no outro lado Lado direito estrutura quatern ria da mesma proteina ci erra 2 Figura 0 1 O Dogma Central revisado da Biologia Molecular rr rrrrererereeeeananeeaaearerrreerea ra nannna 30 Pewa 0 2 ASec de Proe Nd anea ng DIS aan Sa 32 Pouas o Ator dA dai a AA A a r 37 Figura 3 2 2 Esquema simplificado de poss vel evolu o de duas esp cies a partir de um ancestral comum 38 Figura 3 2 3 Um exemplo de homologia de sequ ncias snnnnneeesesssssssssssssreerecosssssssssssssteerecoesssssssssssoretereeeeesssssss
9. O DE RVORE FILOGEN TICA Tradicionalmente a classifica o de esp cies t m sido determinada com base em morfologia comparativa de organismos Outras caracter sticas fisiol gicas anat micas e comportamentais tamb m t m sido usadas Com isso os bi logos examinariam uma larga variedade de tratos e fariam julgamentos intuitivos sobre o grau de relacionamento entre os v rios grupos de organismos que estivessem estudando Isso ocorre porque a hip tese prim ria em an lises filogen ticas que todos os organismos s o atualmente relacionados e derivam de um ancestral comum em algum ponto do passado O problema principal determinar qu o pr xima ou distante essa rela o e que rvore evolucion ria descreve como os organismos atuais evolu ram a rvore verdadeira Bioinfo 326 2002 Um dos objetos de estudo desta Disserta o exatamente o ramo da filogenia denominado filogenia molecular que a infer ncia de linhas de ancestralidade para 115 organismos baseada em sequ ncias de DNA RNA ou prote na Compara es desses tipos de sequ ncias podem revelar diversas informa es sobre a rela o entre organismos e que n o poderiam ser inferidas pela morfologia ou outras caracter sticas E a raz o bastante simples quanto mais muta es s o requeridas para transformar uma sequ ncia em outra menos relacionadas s o as sequ ncias e menor a probabilidade de que compartilhem uma recente sequ ncia ance
10. o 05 04 04 30 04 04 Disponibiliza o do produto Satisfa o do cliente em rela o ao produto Tabela 5 2 1 Plano de desenvolvimento 142 5 3 OPORTUNIDADE CIENT FICA Este sistema uma iniciativa dos pesquisadores da Rede Biofoco no aux lio execu o integrada das diversas ferramentas em suas atividades em projetos gen micos Inicialmente est o previstas as seguintes atividades constru o e visualiza o dos alinhamentos pairwise e m ltiplo predi o e visualiza o de estrutura secund ria de proteinas e deriva o e visualiza o de rvore filogen tica Embora existam ferramentas que separadamente realizem as atividades propostas alguns dos ganhos desta oportunidade cient fica s o redu o de tempo para executar as tarefas padroniza o reposit rio nico dos dados integra o das ferramentas possibilitando fazer com que os dados de sa da de uma sejam entrada para a outra exemplo sequ ncias do alinhamento pairwise s o selecionadas como entrada para o alinhamento m ltiplo automatiza o de algumas tarefas por exemplo a reexecu o de consulta BLAST e automatiza o de consultas no BD pairwise XML conforme a lista de prefer ncias do pesquisador medida que um componente do Sistema esteja devidamente testado e aprovado pelos pesquisadores da Rede Biofoco esse j ser disponibilizado como servi o para os demais usu rios externos Rede para que possam uti
11. 139 an lises de sequ ncias Implementa es recentes demonstram a import ncia desta nova tecnologia na bioinform tica http corba ebi ac uk principalmente para a integra o de bancos de dados biol gicos Pappas 2002 4 6 XML Um documento XML eXtended Markup Language ou Linguagem Extens vel de Marca es uma unidade de informa o que pode ser vista de dois modos como uma sequ ncia linear de caracteres que cont m dados do tipo caracter e marca es tags ou como uma estrutura abstrata que uma rvore composta de n s rotulados e decorados com atributos Os dados v m com uma quantidade enorme de informa es a respeito de Si mesmos metadados Allamaraju 2000 Lan ada em dezembro de 1997 a linguagem XML representa um novo padr o para a organiza o de documentos de forma estruturada e hier rquica troca de dados entre sistemas mesmo incompat veis compartilhamento de dados interplataforma armazenamento de dados em arquivos ou bancos de dados Mais informa es consulte http www xml org Em rela o ao HTML HyperText Markup Language que o padr o de documentos da web XML um avan o e uma complementa o quele mas n o seu substituto XML foi projetado para descrever os dados e focalizar nos seus significados J o HTML este foi projetado para formatar e mostrar dados Diferentemente de HTML XML n o possui tags pr definidas e n o execut vel ou seja o usu rio deve
12. Gz 53 Ed 5S Passo b calcular rvore rvore guia a partir da matriz de dist ncia Passo c alinhamento progressivo que alinhar seguindo a rvore guia ATCTOGAGA ATCOOGAGA ATA TO TAC ATOS TO ta ARG A a TT TUALA 11 20 30 27 J6 O9 30 a 20 27 1 ES S GE 51 Es sa Sa ss Passo c 1 alinhar S1 com S2 S1 ATCTOCOAGCA Sz ATT CGAGA Passo c 2 alinhar S3 com S4 g3 ALG TOG O SA Sd ATETOGACAGA Passo c 3 alinhar a S1 S2 com a S3 84 1 ATUTOGA 0GA ER DT Eta LEA Ea ATE TOGAO 0GA sd ATGTOGACACGA Passo c 4 alinhar a S1 82 53 54 com S5 SL AL CGT TOOGA GA Era ATO DGA GA S3 ATETOGAC GA D ATOTO GAC CALA S AT TCAAC GA Figura 3 5 3 O processo de alinhamento progressivo Fonte http www library csi cuny edu davis Bioinfo _326 lectures lect8 lect_8 html 110 3 6 PREDI O DE ESTRUTURA SECUND RIA DE PROTE NA Quando se est lidando com uma sequ ncia de fun o desconhecida a presen a de dom nios similares em diversas sequ ncias tamb m similares implica fun o bioquimica ou enovelamento estrutural semelhantes que podem se tornar a base de investiga es ou experimentos mais aprofundados pois um grupo de sequ ncias similares pode definir uma fam lia de prote na que compartilha uma fun o bioqu mica ou uma origem evolutiva comuns Bioinfo 326 2002 O objetivo de predi o de estrutura de proteina tomar u
13. apenas alguns conceitos b sicos de biologia molecular de eucariotos s o mencionados neste t pico visando a subsidiar o entendimento do leitor quanto aos assuntos de biologia computacional tratados em seguida 3 1 1 A c lula No mundo real todos os organismos vivos consistem de c lulas e cada c lula cont m um conjunto de um ou mais cromossomos strings de DNA e que servem como um anteprojeto do organismo Um cromossomo cont m genes que s o os blocos funcionais de DNA e cada um dos quais codifica uma prote na Grosso modo pode se pensar no gene como sendo a codifica o de um tra o gen tico tal como a cor dos olhos As diferentes possibilidades de configura o de um tra o azul castanho etc s o chamadas alelos Cada gene est localizado em um posi o particular locus no cromossomo Mitchell 1996 Muitos organismos t m m ltiplos cromossomos em cada c lula A completa cole o de material gen tico todos os cromossomos juntos chamada de genoma O termo gen tipo se refere a um particular conjunto de genes contidos em um genoma Dois indiv duos que t m id nticos genomas s o ditos terem o mesmo gen tipo O gen tipo a base para o fen tipo caracter sticas tais como cor dos olhos altura cor da pele tipo de cabelo e outras NCBI Primer 2002 Organismos cujos cromossomos estejam ordenados em pares s o chamados dipl ides j aqueles que possuem cromossomos simples s o chamados hapl ides
14. http www gdb org http www genetics wustl edu b105491 blast html http www genomicglossaries com content lifesciences databasesdirectory asp http www geocities com sunsetstrip club 2443 aaprot htm http www Jibrary csi cuny edu Y 7 Edavis Bioinfo 326 bioinfo glossary html http www Incc br biologia home html http www math tau ac 1l rshamir alemb 00 scribe00 html lec02 node4 html http www mblab gla ac uk dictionary dicion rio de biologia molecular http www mips biochem mpg de proj protsegdb http www ncbi nih gov About primer bioinformatics html http www ncbi nih gov About primer index html http www ncbi nih gov Education BLASTinfo glossary2 html http www ncbi nih gov Education BLASTinfo Orthology html http www ncbi nih gov Education BLASTinfo Scoring2 html http www ncbi nlm nih gov BLAST tutorial Altschul 1 html statistics http www ncbi nlm nih gov Entrez http www ncbi nlm nih gov Genbank genbankstats html http www nhgri nih gov DIR VIP Glossary pub glossary cgi http www ornl gov hgmis publicat primer prim2 html http www ornl gov TechResources Human Genome glossary glossary s html http www progene ufpe br Apostilas GENMOLI htm http www rcsb org pdb holdings html http www tmbioscience com glossary jsp http www umanitoba ca faculties afs plant science courses 39 769 http www zoology ubc ca otto EvolDisc Glossary html http www3 ebi ac uk Ser
15. lo bem mais r pido Ao comparar todas as sequ ncias em um banco de dados com uma sequ ncia de busca P BLAST tenta encontrar as sequ ncias que contenham um par de segmentos m ximo com escore acima de um valor C escore do segmento segmentos tamb m chamados de sementes curtos pares de segmentos A escolha desse valor C guiada por teoremas os quais se baseiam na matriz de substitui o nas caracter sticas de P e nas sequ ncias do banco de dados Esses teoremas identificam o mais baixo valor de C para o qual um par de segmentos m ximo com escore C n o ocorreria por acaso em qualquer das sequ ncias do banco de dados Gusfield 1997 As sementes s o estendidas 89 tanto para a esquerda quanto para a direita sem inclus o de lacunas at que o m ximo escore poss vel seja atingido Meidanis e Setubal 1997 verdade que nem todas as extens es s o consideradas principalmente porque o programa tem um crit rio de parada quando esses escores ficam abaixo de um determinado limite Existe uma pequena chance de que as extens es corretas n o sejam encontradas devido a essa otimiza o de tempo mas na pr tica isso altamente aceit vel Gusfield 1997 Portanto qualquer sequ ncia com um par de segmentos m ximo de escore acima de C considerada significante e ent o relatada BLAST tamb m relata sequ ncias que n o apresentam essa caracter stica mas possuem v rios pares de
16. o exata Meidanis e Setubal 1997 dadas duas sequ ncias s s n et Itl m O que se quer encontrar todas as ocorr ncias de t em s isto determinar se t uma subs rie cont gua substring de s como seria o caso de s xaybzc e t ybz Diversos algoritmos t m sido empregados para atender essa demanda sendo o mais proeminente a rvore de sufixos suffix tree De maneira bastante vers til essa estrutura tem possibilitado resolver problemas da vida real tais como encontrar subs ries repetidas em uma sequ ncia de DNA encontrar o primer em segu ncias a serem multiplicadas usando PCR e encontrar todos os pal ndromos de tamanho m ximo em uma sequ ncia de DNA Apesar da aplicabilidade da compara o exata certamente a compara o inexata o caso para o qual est direcionada a grande maioria dos problemas da Biologia Molecular dentre eles dist ncia de edi o e compara o ou alinhamento de sequ ncias a chamada busca de similaridade E ser esse ltimo ponto o foco deste Trabalho Diferentemente da rea anterior nesta s o permitidos alguns erros nas sequ ncias e o prop sito encontrar subsegu ncias cont guas ou n o como por exemplo s xaybzc e t xyc ou t ayb Ou mais especificamente encontrar caracteres coincidentes mesmo que esses estejam intercalados por outros divergentes ou espa os em uma sequ ncia combinados com caracteres na outra o que far com que as sequ ncias resultantes
17. sendo utilizado principalmente para a estrutura o do Servi o de Persist ncia baseado no modelo POS Persistent Object Service do CORBA Tanto o Servi o de Persist ncia quanto o modelo do CORBA ser o explicados detalhadamente mais adiante O pattern Factory O pattern Factory ou f brica retorna uma inst ncia de uma das diversas e poss veis classes dependendo do par metro que lhe passado Usualmente todas as classes que o m todo getClass retorna possuem uma superclasse e m todos em comum mas cada uma executa a tarefa diferentemente e otimizada para diferentes tipos de dados Cooper 2002 Segue a Figura 4 4 1 134 Figura 4 4 1 Esquema do pattern Factory Fonte http www patterndepot com put 8 factory pdf Na Figura 4 4 1 mostrada acima x a superclasse e as classes xy e xz s o suas subclasses O pattern a classe que decide qual dessas subclasses ser retornada dependendo do par metro que lhe foi passado a direita est definido o m todo getClass que recebe algum valor abc e retorna uma inst ncia da classe x De qualquer modo n o importa ao programador saber qual classe est sendo retornada pois todas t m os mesmos m todos mas implementa es diferentes Tudo decidido pela f brica de um modo bastante simples O uso deste pattern deve ser considerado nas seguintes situa es uma classe n o pose antecipar quais tipos de objeto ela deve criar a classe usa sua sub
18. 3 ou 4 para sequ ncias de prote nas Escore da palavra T Palavras de W 2 na Escore das palavras do banco de dados quando alinhadas s sequ ncia de busca palavras da sequ ncia de busca QL 5 4 LN 4 6 NF 6 6 O NY 63 FS 6 4 EM 6 2 ME 0 SA 4 4 SML 4 3 AML 1 3 AG 4 6 i WEI NW 29 GW 6 11 GY 6 2 AW 0 11 WW 2 11 WA 11 4 ns AA 4 4 Tabela 3 3 17 BLAST Seq ncia de busca par metros e palavras com alto escore matriz BLOSUM62 Baseado em Craven 20021 H dois enfoques usados para rastrear o banco de dados em busca de palavras na lista anteriormente constru da Um deles construir uma tabela de busca hash table ou lookup table de todas as palavras na primeira sequ ncia e ent o comparar cada palavra da segunda sequ ncia 92 com as entradas da tabela Meidanis e Setubal 1997 como se pode observar na Figura 3 3 20 a seguir Tabela de busca 4 1 gt gt W Seq ncia do banco de dados 2 gt gt 4 gt F w 5 s Seq ncia de DNA 6 gt A C G T A 00 7 gt gt gt olofoliliJolih co gt Byte G 10 T 11 Lista de palavras Figura 3 3 20 BLAST Tabela de busca e compara o das seq ncias do BD com as entradas desta tabela Baseada em Martins 2000 O segundo enfoque usa um aut mato finito determin stico DFA Deterministic Finite Automaton para buscar as palavr
19. YMAIY S A GW L Seq ncia do banco de dados 6 1 Maior escore inicial 17 1 Estens o em ambas as CCC CE gt Ho dire es H 2 2 3 44 Escore total 25 Maior segmento escore C 24 Figura 3 3 22 BLAST Extens o das sementes de cada uma das segii ncias Baseada em Martins 2000 3 Estender os alinhamentos de cada segmento restante Come ando em um ponto central de cada par de segmentos m ximo remanescente os alinhamentos s o estendidos em ambas as dire es usando programa o din mica Para evitar busca em toda a extens o do grafo de alinhamento pontos s o ignorados onde os escores acumulativos caem mais que um valor X abaixo do mais alto escore conseguido no in cio deste passo Cada uma dessas extens es bastante longa se comparadas aquelas do passo anterior embora isso seja feito muito menos frequentemente Bioinfo 326 2002 94 4 Criar uma matriz de escore para as sequ ncias altamente conservadas Tendo sido rastreado todo o banco de dados comparam se as sequ ncias de alto escore que apresentam identidade com a sequ ncia de busca para determinar quais delas s o altamente conservadas Uma matriz de escore de posi o espec fica PSSM Position Specific Scoring Matrix constru da utilizando essas informa es Por exemplo se a sequ ncia de busca S1 se identifica fortemente com 10 sequ ncias do banco de dados Sn s de tal modo que o A de S1 na posi o 37 se
20. c d e J est o conclu dos at a fase atual o levantamento de necessidades do usu rio e o projeto de integra o com v rios aplicativos Isso facilita a integra o de novos desenvolvedores equipe Foram produtivos a valida o e o emprego de orienta o a objetos design patterns JAVA CORBA UML e RUP no desenvolvimento de uma ferramenta para uso cient fico O desenvolvimento do aplicativo foi facilitado pelo reuso integral da arquitetura empregada no Sistema Genoma principalmente quanto aos servi os de Controle Cole o e Persist ncia Com isso mesmo os desenvolvedores que n o detinham conhecimento de todas as tecnologias empregadas principalmente CORBA constru ram de imediato componentes teis A implementa o e posteriores manuten es tornaram se bastante facilitadas pelo emprego de atributos parametrizados Os Servi os de Parametriza o e de Filtragem de resultados s o componentes de uso gen rico e suas facilidades ser o estendidas aos Sistemas Genoma e Anota o 182 7 CONCLUS O Quanto pesquisa realizada e ao Sistema em fase inicial de implementa o pode se concluir que a b d e O informata precisa ter um conhecimento m nimo de biologia molecular computacional para conseguir propor solu es e entender a demanda dos pesquisadores para este Projeto E esse conhecimento ocorreu na pesquisa empreendida para escrever o Referencial Te rico cap tulo 3
21. gen tico de sequ ncias etc de montagem e alinhamento de sequ ncias histograma de qualidade de escores etc Esta cole o foi utilizada no Projeto Genoma Drosophila da Universidade de Berkeley H disponibilidade de download do c digo fonte no link https www neomorphic com das register html Ao final do ano de 2000 a companhia Neomorphic foi vendida Affymetrix empresa que desenvolve tecnologias para a pesquisa biom dica Com isso houve a descontinuidade no desenvolvimento e atualiza o do c digo aberto dispon vel Apesar desse fato e da defici ncia quanto aos recursos da linguagem Java foram observadas boas caracter sticas de apresenta o gr fica e componentes definidos em m dulos bem pequenos alta granularidade o que facilita reuso e manuten o Neomorphic vide https Awww neomorphic com das e http www neomorphic com Affymetrix vide http www affymetrix com 12 2 2 OBJETIVOS OU PROPOSI ES Em resposta escassez de produtos de livre acesso freeware port veis e de c digo aberto open source houve a sugest o dos integrantes da Biofoco para que se desenvolvesse uma ferramenta de estrat gia efetiva para manipula o de informa es e an lise elementar nos primeiros est gios de matura o de dados de sequ ncias em projetos de mapeamento gen mico Vale lembrar que o objetivo deste trabalho n o redesenvolver um outro aplicativo do tipo BLAST embora haja pesquis
22. merico o escore para cada poss vel alinhamento soma se p a b a cada vez que a alinha se a b em q e soma se g a cada vez que um caracter a pareado a um espa o A soma total o escore de a indicado por escore a Portanto a similaridade entre duas sequ ncias s e t de acordo com esse sistema de escore Sim s t max escore a a A s t onde A s t o conjunto de todos os poss veis alinhamentos entre s e t 45 3 3 2 Principais m todos de alinhamento e alinhamento pairwise Estabelecida a diferen a entre dist ncia e similaridade este cap tulo de agora em diante concentrar se nos m todos e algoritmos de alinhamento pairwise que s o a maneira pela qual a similaridade compara duas sequ ncias Um alinhamento entre s e t uma fun o do tipo p 2 x 2 gt R sendo que 2 o alfabeto usado pelas sequ ncias se t e 2 o alfabeto 2 adicionado do caracter que denota um espa o Gusfield 1997 As sequ ncias s e resultantes devem satisfazer Meidanis e Setubal 1997 1 s t ou seja o tamanho da sequ ncia s deve ser igual ao da f devido a inser o de espa os em uma ou outra ou ambas 2 Removendo se todos os espa os de s obt m se sS 3 Removendo se todos os espa os de f obt m se t 4 Para cada posi o i apenas sfi ou tli pode conter espa o isto um espa o deve ser sempre alinhado a algum caracter e nunca a outro espa o 5 N o obed
23. no m ximo um melhor gerenciamento dos recursos Quanto aos biol gicos a sim h muito a ser feito Para os males da explos o demogr fica apontados pelo economista e pastor anglicano Thomas Robert Malthus em 1798 no seu famoso livro Popula o o primeiro ensaio a solu o tamb m ocorreu pelo aux lio da ci ncia embora de um modo mais pr prio aos s culos que se seguiram Segundo ele a popula o crescia em progress o geom trica 1 2 4 8 16 32 04 obviamente com maior rapidez que os meios de subsist ncia que cresciam em progress o aritm tica 1 2 3 4 5 6 Devido ao desequil brio entre os recursos naturais e as necessidades da popula o Ara jo 2002 a cat strofe malthusiana ocorreu na Irlanda com a fome provocada pela escassez de batatas no s culo XIX E no s culo XX novas cat strofes malthusianas ocorreram na Eti pia e Som lia Felizmente as profecias de Malthus ainda est o longe de se concretizarem nos pa ses desenvolvidos onde houve um aumento populacional mas tamb m houve aumento da produ o devido aos avan os na tecnologia como aduba o uso de pesticidas e melhoramento gen tico e na medicina nos ltimos dois s culos Entretanto o aspecto malthusiano ainda amedronta os pa ses subdesenvolvidos da frica s o 2 250 000 mortos em guerras civis da sia 71 4 da popula o vive abaixo da linha de pobreza e da Am rica do Sul estimou se mais de 349 milh es de
24. nucleot deos tomados 3 tr s a 3 tr s especificam 64 sessenta e quatro poss veis c dons 64 sessenta e quatro c dons especificam 20 vinte amino cidos 3 tr s c dons de parada STOP e 1 um c don de come o START o qual coincide com o amino cido metionina Segue a Tabela 3 1 2 24 SEGUNDA POSI O U U C A G G u uuw Fenilalanina UCU UGU U U uuc UCC Serina UGC C U uua Leucina UCA STOP Ea STOP c don A Y uuo uce c don c M cuu ccu U E c cuc Leucina CCC Prolina CGC Arginina C l CCA CGA A R CCG CGG G lonir JE A auc Isoleucina ACC Treonina AGC C EA E Ba e Metionina e ESPADA ACG G 6 cuu GCU GAU cido asp rtico GGU U 6 euc Valina GCC Alanina GAC GGC Glicina C O 6 cua GCA GAA cido glut mico A 6 cue GCG G Tabela 3 1 2 O c digo gen tico asa c dons para amino cidos Baseado em http gened emc maricopa edu bio bio181 BIOBK BioBookPROTSYn html Il Prote nas defini o fun es e estrutura S o pol meros lineares ou unidimensionais de tamanho variado compostos por unidades mais simples chamadas amino cidos unidos por liga es pept dicas na etapa de Tradu o da s ntese de prote na Outros termos tamb m usados para designar esses pol meros s o pept deos sequ ncias de at 20 amino cidos e polipept deos sequ ncias com mais de 20 amino cidos podendo chegar at 5000 Tipicamente as protein
25. possuam o mesmo tamanho uma consequ ncia t pica do alinhamento Embora esse conceito possa parecer simples Gusfield 1997 a busca de similaridade usando sequ ncias de DNA ou de prote nas est sendo considerada atualmente o mais poderoso m todo para inferir as fun es biol gicas de um gene ou a prote na que ele codifica pois uma alta similaridade da sequ ncia pode implicar uma 34 significativa similaridade estrutural ou funcional first fact embora o contr rio n o se aplique Al m disso pode se usar esse m todo por exemplo para reconstruir longas sequ ncias de DNA a partir de seus fragmentos fragment assembly explorar elementos informativos em DNA ou prote na determinar o grau de muta es sofridas por uma sequ ncia no processo evolutivo ou estabelecer a exist ncia de um ancestral comum entre duas ou mais sequ ncias o que tamb m chamado de busca de homologia e ser discutido mais adiante neste tutorial Assim Meidanis e Setubal 1997 com o advento de tecnologias r pidas e confi veis como algoritmos heur sticos e computa o paralela para sequenciamento de cidos nucl icos e prote nas bancos de dados centralizados foram criados para armazenar e sistematicamente organizar a larga quantidade de dados produzidos por laborat rios em todo o mundo permitindo buscas por compara o exata ou aproximada E como resultado houve uma mudan a dram tica no enfoque da Biologia Molecula
26. s o modelos estat sticos do consenso de sequ ncia de uma fam lia hom loga Vide http smart embl heidelberg de help smart glossary shtml Marcadores s o genes de localiza o conhecida em um cromossomo e fen tipo os quais s o usados como um ponto de refer ncia no mapeamento de outro loco loci Vide http www cstl nist gov biotech strbase glossary htm T xon um conjunto de organismos biol gicos caracterizado por propriedades compartilhadas por todos os organismos segundo http www ime usp br rsouza 1c node3 html O Parafil tico um grupo de organismos que descendem de um ancestral comum mas nem todos os organismos derivados s o inclu dos Polifil tico um grupo no qual s o colocados organismos que n o compartilham um ancestral imediato comum enquanto exclui outros membros que poderiam lig los Ergonomia estudo que visa a tornar as rela es entre o homem e a m quina harmoniosas impedindo o surgimento de problemas relacionadas postura www babylon com 203 Heran a um mecanismo que permite que caracter sticas comuns a diversas classes sejam fatoradas em uma classe base ou superclasse A partir de uma classe base outras classes podem ser especificadas Cada classe derivada ou subclasse apresenta as caracter sticas estrutura e m todos da classe base e acrescenta o que lhe for definido de particularidade Vide http www dca fee unicamp br courses PooJava heranca
27. vel m ximo de identidade que as sequ ncias possam ter e ainda contribuir independentemente para o modelo Desse modo para comparar sequ ncias similares foram constru das matrizes usando altos percentuais enquanto baixos percentuais s o mais apropriados para compara o de sequ ncias altamente divergentes Pearson 2001 De fato as matrizes BLOSUM em especial a BLOSUMO2 atuam substancialmente melhor que as matrizes PAM com os procedimentos BLASTP e FASTA mas ambas BLOSUM e PAM podem apresentar bons resultados quando usadas com penalidades timas para as lacunas As matrizes BLOSUM e PAM diferem n o somente no modo pelo qual s o constru das mas tamb m em seu uso As matrizes PAM de baixos percentuais PAM1 75 PAM20 PAM40 etc indicam o acontecimento de pouca mudan a evolucion ria J os altos n meros das matrizes BLOSUM por exemplo BLOSUM8O0 em contraste que indicam a mesma situa o de pouca mudan a evolucion ria e alto grau de conserva o das sequ ncias Pearson 2001 conforme figura a seguir Alta similaridade Baixasimilaridade BLOSUM8O0 BLOSUM62 BLOSUM45 PAM1 PAM120 PAM250 Menos divergente Mais divergente Figura 3 3 14 Compara o do grau de diverg ncia entre as matrizes BLOSUM e PAM Baseada em http www ncbi nih gov Education BLASTinfo Scoring2 html A aprimoramento das matrizes BLOSUM em rela o s matrizes PAM provavelmente deriva de dois fatores O primeiro
28. 2000 http luna spaceports com franc MolecEvol evolucao molecular htm Site pesquisado em 03 04 2002 Santos 2002 Santos Fabr cio R Evolu o molecular Brasil 2002 http www 1cb ufmg br lbem aulas grad evol evolmol Site pesquisado em 03 04 2002 Santos e Ortega 2001 Santos Fabr cio R Ortega Jos Miguel Bioinform tica aplicada a Gen mica Brasil 2002 www icb ufmg br lbem aulas grad tge bioinfo biomnfogenomica pdf Site pesquisado em 03 10 2002 Sipert 1998 Sipert Lisiane Volpi Martins Vidal DESIGN PATTERNS COMPOSITE http www pr gov br celepar celepar batebyte edicoes 1998 bb75 design htm Site pesquisado em 25 06 2002 Struts 2002 Jakarta Struts http jakarta apache org struts resources Site pesquisado em agosto de 2002 UFRJ 2002 As Bases Moleculares da Heran a Gen tica http www 1q ufr br joab qb20 tutorial dna historia historico dna html Site pesquisado em 03 05 2002 WebBlast 2002 WebBlast http research nhgri nih gov apps webblast e http research nhgri nih gov software webblast2 bioinformatics webblast article shtml Sites pesquisados em agosto de 2002 Outras refer ncias pesquisadas no per odo de 03 10 2001 a 20 01 2003 http bioinfo weizmann ac 1 courses BCG lectures 02 pairwise 2 3quantitative 02distance html http bioinformatics utmem edu classes module9 overview html http ca expasy org sprot relnotes relstat ht
29. 3 3 15 Os algoritmos da fam lia BLAST Al m da sele o do programa de BLAST deve se tamb m preocupar com a escolha do tipo de banco de dados NCBI a ser utilizado para comparar com a sequ ncia de busca Alguns desses bancos s o espec ficos para prote nas ou nucleot deos e n o podem ser usados em combina o com certos programas por exemplo uma busca BLASTN com SWISSPROT NCBI Education 2002 Quanto aos bancos de dados de proteinas esses est o agrupados por n o redund ncia periodicidade de atualiza o tipos de organismos ou esp cies sequ ncias patenteadas interesse imunol gico elementos repetitivos etc agregando dados do GenBank PDB SWISSPROT PIR PRF Funda o Japonesa de Pesquisa de Prote na REPBASE e BDGP Projeto Berkeley de Genoma de Drosophila Quanto aos bancos de dados de nucleot deos al m de agrupamentos similares aos relatados para prote nas existem outros de EST STS vetores sequ ncias de mitoc ndrias GSS segi ncias HTGS etc a dados podem ser obtidas no Tutorial de Busca do BLAST http Awww ncbi nlm nih gov Education BLASTinfo query tutorial html ou na lista de seus bancos de dados dispon veis http www ncbi nlm nih gov BLAST blast databases html BLAST retorna uma lista dos pares de segmentos com alta similaridade local em alinhamentos sem lacunas avaliados por uma matriz de escore quando da compara o entre a sequ ncia de busca e as sequ ncias do banc
30. 7 igual a t 1 resultando p i j iguala 1 a 0 1 2 2 2 4 sendo o segundo valor 2 tamb m relativo penalidade de espa o Dentre os valores encontrados a a i ser sempre atribu do o maior ou o m ximo deles Para o exemplo acima a 7 1 ser igual a 1 O mesmo se repete para preencher os valores das demais c lulas utilizando o algoritmo de alinhamento global proposto por Meidanis e Setubal 1997 Figura 3 3 4 ou o algoritmo apresentado por Pearson 2001 p 27 para o alinhamento local Figura 3 3 5 Algoritmo Similaridade Global entrada sequ ncias s e t sa da similaridade entre s e t me s n tl fori O tomdo condi o base para a coluna O a 1 0 1 g g a penalidade para a ocorr ncia de cada espa o forj 0 tondo condi o base para a linha 0 al0 Ej g fori 1 tomdo a rela o recorrente para as c lulas i 1 m e j 1 n forj 1 ton do a 1 J max ali j e 1 8 a 1 l j T 1 p i j a 1 1 J e g return a m n retorna a matriz preenchida Figura 3 3 4 Um algoritmo pseudoc digo para calcular a similaridade global em programa o din mica 58 Algoritmo Similaridade Local entrada sequ ncias s e t sa da similaridade entre s e t m jsn t melhorEscore 0 fori O tom do Icondi o base para a coluna O ali 0 0 o valor de cada c lula zero forj O tondo condi o base para a linha 0 a 0 j
31. DE CASOS DE USO 5 11 1 Atores Os principais atores que interagem com o Sistema s o a b c d e Pesquisador o especialista em biologia bioinform tica ou qualquer outra rea correlata e que em decorr ncia de suas atividades em projetos gen micos utilizar o Sistema como ferramenta auxiliar Este usu rio um membro da Rede Biofoco e por isso possui cadastro regular no Sistema Al m de ser um usu rio com amplos privil gios tamb m o respons vel por todas as atividades a saber manuten o dos cadastros acompanhamento do sistema emiss o de relat rios gerenciais implementa o de melhorias dentre outras Clock aplicativo de agendamento de opera es e respons vel por executar a lista de tarefas do Sistema e realizar consultas baseadas na wish list Servidor de e mail o servidor para o qual o Clock enviar o resultado das tarefas executadas caso o Pesquisador tenha optado receber essa informa o via e mail Sistema Genoma o Sistema BLOOM interagir com este Sistema para proporcionar ao Pesquisador obter o resultado de alinhamento pairwise armazenado no BD pairwise XML Mais especificamente o Pesquisador acessa o Sistema Genoma escolhe o item Consulta escolhe o projeto a biblioteca e a placa escolhe o item An lise de sequ ncia e por fim clica no bot o Resultados do BLAST para iniciar o acesso ao BLOOM BD pairwise XML seu papel fornecer os d
32. Hsp midline gt MMA AAA DOPAPATRADADOD ON DADA AAA DOADA AAA DADADA GASOSA DADA DADA DADAGAGA SODA DADA DADA DADAS DADA DADA DADA DOPAPATAAD ADO DA DADA UITIIN TTT lt Hsp_midline gt lt Hsp gt lt Hit_hsps gt lt Hit gt lt Iteration_hits gt lt Iteration stat gt lt Statistics gt lt Statistics db num gt 968826 lt Statistics db num gt lt Statistics db len gt 137679 lt Statistics db len gt lt Statistics hsp len gt 0 lt Statistics hsp len gt lt Statistics eff space gt 0 lt Statistics eff space gt lt Statistics kappa gt 0 710605 lt Statistics kappa gt lt Statistics lambda gt 1 37407 lt Statistics lambda gt lt Statistics entropy gt 4 94066e 324 lt Statistics entropy gt lt Statistics gt lt Iteration stat gt lt Iteration gt lt BlastOutput iterations gt lt BlastOutput gt Figura 0 1 Um exemplo de resultado BLAST no formato XML 193 External Programs BancoPublico ProjetoBancoPublico UsuarioProjeto ProjetoVetor UsuarioProjeto Total Figura 0 2 Sistemas Genoma e BLOOM diagrama de classes de controle comuns a ambos A seguir as 5 primeiras telas de acesso ao Sistema BLOOM passando pelo Sistema Genoma 194 rede de bioinform ticado centro oeste WS SISTEMA GENOMA Usu rio Senha Entrar Digite o nome
33. Na natureza a maioria das esp cies sexualmente reproduz veis s o dipl ides incluindo os seres humanos que possuem 23 pares de cromossomos em cada c lula som tica 22 pares autossomos 1 par de heterossomos ou cromossomos sexuais XY no sexo masculino ou XX no sexo feminino Durante a reprodu o sexuada ocorre a recombina o ou crossover a de cada um dos pais genes dos pares de cromossomos s o trocados para formar um gameta um cromossomo simples e b esses se juntar o a 16 outros para criar um conjunto de cromossomos dipl ides Na reprodu o sexuada hapl ide ocorre apenas a primeira etapa descrita para a reprodu o dipl ide Os descendentes s o os que est o sujeitos a muta o na qual alguns nucleot deos bits elementares do DNA s o mudados em rela o ao material gen tico herdado dos pais e quase sempre representam erros de c pia Mitchell 1996 Um outro ponto a aptid o ou adaptabilidade de um organismo Tipicamente podemos defini la como sendo a probabilidade de que um organismo viver para se reproduzir viabilidade ou como uma fun o do n mero de seus descendentes fertilidade 3 1 2 cidos nucl icos I DNA O DNA ou ADN DeoxyriboNucleic Acid ou cido Desoxirribonucl ico uma dupla h lice de cadeias polinucleot dicas antiparalelas interconectadas pela energia cooperativa de muitas pontes de hidrog nio que se estabelecem entre as bases nitrogenadas compleme
34. Obter resultado Para cada sequ ncia chamar M dulo de Anota o Visualizar apresenta o gr fica do resultado e da anota o Filtrar resultado Ordenar Ampliar ou reduzir zoom Selecionar subconjunto de sequ ncias Selecionar pr ximo aplicativo Figura 5 11 3 Diagrama de Atividades Visualizar alinhamento pairwise b 163 Construir alinhamento m ltiplo Breve descri o a partir da sele o de um subconjunto das sequ ncias resultantes do alinhamento pairwise este caso de uso possibilita ao Pesquisador executar a ferramenta que constr i o alinhamento m ltiplo correspondente ao subconjunto selecionado Em seguida pode se visualizar e manipular graficamente todo o conjunto resultante Pr condi es 1 Ter selecionado um subconjunto das sequ ncias resultantes do alinhamento pairwise Fluxo principal de eventos 1 Este caso de uso se inicia quando o pesquisador seleciona um aplicativo para executar a atividade dentre aqueles constantes na lista de ferramentas apropriadas Clica no bot o Executar O Sistema utiliza os par metros pr determinados default de cada ferramenta Feito isso o Pesquisador atribui uma descri o breve e um coment rio para o novo registro 5 Determina o destino do resultado mostrar na tela gravar no caminho e arquivo especificados gravar diretamente no BD pairwise XML ou todas as op es 6 Clica no bot o OK e o Sistema execut
35. Watson e Crick propuseram que a mol cula de DNA era constitu da de uma dupla h lice de cadeias polinucleot dicas antiparalelas interconectadas pela energia cooperativa de muitas pontes de hidrog nio que se estabeleciam entre bases complementares p ricas A e G e pirimid nicas C e T dos nucleot deos Nesse modelo as bases projetavam se para o interior da h lice a partir dos esqueletos externos de a car fosfato Na tentativa de encontrar aquele que se adequasse aos dados de difra o de Raio X complementaridade de bases e estrutura qu mica de cada base Watson e 29 Crick chegaram at mesmo a confeccionar modelos moleculares em arame Bonato e Bonato 2001 Dando continuidade a suas pesquisas Francis Crick e colaboradores em 1958 prop em o Dogma Central da Biologia Molecular afirmando que a mol cula de DNA seria o molde para se construir RNA e este por sua vez seria o molde para a s ntese de prote nas Mostrou se ainda a particularidade de que a informa o contida na prote na n o poderia ser repassada para a constru o de outra proteina nem para a constru o de uma mol cula de DNA ou RNA ou seja a informa o gen tica deveria estar armazenada em DNA e fluir da num sentido nico para o n vel de RNA e por fim para o n vel de prote na bem verdade que os biol gos n o tinham esse dogma como infal vel Bonato e Bonato 2001 Na d cada de 70 contudo dois grupos distintos o de Howar
36. XML e passam pelo processo de unmarshaling no Sistema Genoma para se tornarem objetos 174 5 13 2 Diagramas de intera o I Diagramas de seq ncia irado tre Die iaio ara riam tesregofaore heee reias Obiin hrena s apita EE S Y didi ddr hu e s Sedeo sdapraire sirTaim na Hanee ayien Go y heyei bape Gein y osae HM v s pod sm l Qn e Raad g dret force fara 0 30 E TEtheFEch ii Figura 0 1 Sistema Genoma diagrama de sequ ncia do cen rio Inicializa Instance JTabbedEscolhalnicial Instance Usuario Tab consulta CreateAction Selebiona projeto Seleciona biblioteca gt Instance JInternalFrameConsulta Sel ciona placa Tab analjse de sequencia Seleciona clone CreateAction 175 Instance JPanelSelectedSequence Botao resultados do blast Figura 0 2 Sistema Genoma diagrama de segi ncia do cen rio
37. apoio especialmente Antenor Turazi e Adelina Sesconetto Borges a todos meus professores do Mestrado pela contribui o significativa realiza o deste trabalho aos funcion rios da p s gradua o da Universidade Cat lica de Bras lia especialmente Leonor Gon alves e M nica Miranda pela aten o a amiga e professora de ingl s Melissa Dias Hecksher pelo carinho incentivo e por sua inestim vel colabora o na revis o deste trabalho e na corre o das tradu es de lingua inglesa aos amigos e professores Fernando Monteiro Ribeiro UNB e Rodrigo Bonif cio Almeida UCB pela gentileza disponibilidade e indispens vel contribui o t cnica na condu o desta Pesquisa as amigas Patr cia Cyriaco da Silva e Wanderlea Rodrigues de Souza e aos meus alunos que me incentivaram e colaboraram fortemente para a conclus o deste trabalho a minha fam lia especialmente meus pais pelas dedicadas ora es e pelo jeito simples de manifestarem seu orgulho por mais esta conquista em nossas vidas Analisar a vida como observar num caleidosc pio os mesmos elementos mas a cada movimento uma imagem diferente Armando Oscar Cavanha LISTA DE FIGURAS raposa MO RR a a SUDO O Dn do DS RA O a RS Cd o rd VIII ESTA DE TABELAS aa en ae RD E ade SODA AR a a E R X LISTA DE ABREVIATURAS E S MBOLOS MAIS UTILIZADOS XI RESUMO lp DO a TR NE E RA RO O ae XII AB STEA C Da aaa E a Re AE E RS E RG O A RA a ER XIII 1 INTRODUCA D
38. chamado DNA complementar cDNA por n o conter os introns Ap s catalisado pela polimerase reversa esse DNA volta ao n cleo da c lula para ser integrado Vide Figura 0 2 Tradu o ocorre no ribossomo e objetiva se a sintetizar proteina vide Figura 0 2 abaixo Um ou v rios ribossomos ligam se ao mRNA no c don inicial AUG start codon O processo depende da presen a das mol culas de RNA transportador tRNA que fazem o mapeamento de c don para amino cido Cada tRNA possui numa extremidade uma conforma o com alta afinidade para um c don espec fico e na outra uma conforma o que se liga com facilidade ao amino cido correspondente sendo apenas transportado um amino cido por vez medida que o mRNA passa pelo interior do ribossomo o tRNA correspondente liga se a esse trazendo o amino cido correspondente Uma enzima apropriada junta se ao processo para se encarregar da adi o de cada amino cido resultante cadeia prot ica libertando o do tRNA Assim res duo por res duo a proteina vai sendo constru da at que seja encontrado um c don de parada UAA UGA ou UAG stop codon para finalizar a s ntese da proteina n o enovelada A proteina ent o enovela se em forma es locais como h lices e fitas f constituindo liga es de longo comprimento Modifica es p s traducionais 32 para ajuste da fun o ainda podem ocorrer antes que cada nova proteina seja transportada para alguma parte da c l
39. ciii in 51 IOA AGUOS etea a a e a a 53 3 3 5 Algoritmos de Programa o Din mica neenesenneennesrrnnrresrrrrrrrrrrrsrrrnrrrrrrrrsrrrnrrrrsnrrnrrren rene 53 3 3 6 Matrizes de substitui o ou de escore eeeeererer rena rre area ree aeee area naado 65 3 3 1 PAM ionann RD UE ICARROS CREIO CE RONNIE ERRO ROS MN RR SERES CEDER O EDGE RR NE NR ee 66 3 3 8 BLOS UM sadia ande das So sda do a do a 70 l Obanco de dados FROSITE asso ia a a Odo a 70 II O banco de dados BLOCKS mariai a aaa i a e a Densa 73 Iil As matizes BLOSUM Ternera a a a A a E 73 3 3 9 Algoritmos heur sticos para buscas em bancos de dados eee T7 l FASA oa a E A a a E 78 Il BEAS a a a E 86 III Compara o entre BLAST e FASTA e eeerea renan ren ec eren aerea aan ana cee aan cneanao 94 3 4 ENTENDENDO UM PROJETO GENOMA errar rrenan 95 So ALINHAMENTO MULTIPLO carrera tkana Anr nas rraaa eae EA EEA EE EAEaren anera n 103 3 6 PREDI O DE ESTRUTURA SECUND RIA DE PROTE NA 110 ETA DERIVA O DE RVORE FILOGEN TICA es 114 4 METODOLOGIA ao emos as T SOL as ANSA ida TU da US A SA SOS 122 4 1 MODELAGEM ORIENTADA A OBJETOS eee re anna 122 4 2 RO ORNE Re an GR NR EDIR IRD Roo SSD CoD RO UR E O RE ha ARDE E A 124 4 3 JAV po a scans Rai Raia e End Re Sn is Sa a a O a dC a A a a 128 4 4 DESIGN PATTERNS E ORIENTA O A OBJETOS 129 4 4 1 Os patterns mais utilizados
40. com content lifesciences_databasesdirectory asp uma divis o do GenBank http www ncbi nlm nih gov dbGSS similar divis o de EST exceto pelo fato de que suas seq ncias s o gen micas em origem e n o cDNA mRNA 2 H TGS ou High Throughput Genomic Sequences em ingl s segundo http www genomicglossaries com content lifesciences databasesdirectory asp uma divis o do GenBank http www ncbi nim nih gov HTGS criada para acomodar sequ ncias de DNA n o finalizado geradas pelos centros de sequenciamento high throughput Matriz de escore unit ria segundo http www ncbi nlm nih gov Education BLASTinfo glossary2 html esta matriz tamb m conhecida como matriz identidade um sistema de escore no qual apenas caracteres id nticos recebem um escore positivo o Paradigma ou M quina de Mealy segundo http www inf ufrgs br pos Semana Academica Semana99 juliohapm juliohapm html a M quina de Mealy um aut mato finito modificado de forma a gerar uma palavra de sa da para cada transi o SP soma dos pares ou sum of pairs em ingl s significa a soma dos escores de todos os pares de simbolos em cada coluna sendo as sequ ncias tomadas duas a duas Meidanis e Setubal 1997 Mutag neses segundo o dicion rio Aur lio S culo XXI significa 1 Gen t Processo que d origem s muta es 2 Citol Produ o de muta es em uma popula o de c lulas Modelos Ocultos de Markov HMM
41. dados de prote nas s o quase sempre valorados e a escolha da matriz de escore pode ter um efeito consider vel sobre os resultados Sugere se em alguns casos que essa escolha o elemento t cnico mais cr tico para o sucesso de uma busca Idealmente os valores na matriz devem refletir os fen menos biol gicos que os alinhamentos procuram mostrar por exemplo no caso de diverg ncia de sequ ncias por muta es evolucion rias os escores devem preferencialmente ser derivados de observa es emp ricas entre sequ ncias ancestrais e seus atuais descendentes j no caso de motivos conservados ou correla es bem definidas entre estrutura e sequ ncia os n meros devem ser derivados de cole es de sequ ncias contendo esses padr es desejados Gusfield 1997 O sistema de escore descrito at o momento utiliza um esquema bastante simplificado 1 para identidade 1 para diverg ncia e 2 para espa o No entanto ao se compararem sequ ncias de prote nas essa estrat gia n o suficiente principalmente nos casos de alinhamentos de baixos escores por pouca sensitividade do algoritmo Isso porque num cen rio evolutivo as muta es n o ocorrem de forma assim t o primitiva Baxevanis e Ouellette 2001 Sabe se que certos amino cidos podem ser conservativamente substitu dos por outros presumivelmente devido similaridade de suas propriedades f sico qu micas por exemplo isoleucina por valina ambos pequenos e hidro
42. de DNA Quanto ao sequenciamento tr s t cnicas s o empregadas a Shotgun ou tiro no escuro todo o DNA do organismo aleatoriamente fragmentado em pequenos peda os de 1000 a 2000 bp esses fragmentos abastecem as m quinas autom ticas de sequenciamento e posteriormente s o montados assembling via bioinform tica como se fossem pe as de um quebra cabe a formando uma sequ ncia cont gua ou contig As sequ ncias com sobreposi o s o ordenadas pelas suas partes comuns de forma a recomporem a sequ ncia original Pereira 2001 Um problema dessa metodologia a ordena o de fragmentos em regi es repetitivas Ou seja como em cada rea o de sequenciamento obt m se a identidade de apenas cerca de 500 bp denominado read se no genoma existem zonas de DNA repetitivo com extens o maior do que essa torna se dif cil interpretar a localiza o das sequ ncias individuais Para contornar esse problema comum em genomas complexos a realiza o de clonagem de fragmentos maiores em vetores do tipos cosm deos ou cromossomos artificiais de bact rias BAC ou leveduras YAC que s o sequenciados individualmente e levados para a montagem j como grandes peda os Embora seja o shotgun uma estrat gia simples a etapa de montagem de grandes genomas usando essa t cnica exige um enorme esfor o computacional como aconteceu com a montagem do genoma humano pela Celera feita a partir de 26 4 milh es de fragmentos
43. de DNA com tamanho m dio de 550 bp exigiu mais de 20 000 horas de processador do mais poderoso computador civil do mundo Por outro lado a montagem de pequenos genomas pode atualmente ser realizada por computadores relativamente modestos de pre o aproximado de U 10 000 00 utilizando processadores tipo INTEL sistema Linux FAPESP 1999 Foi tamb m empregada pela FAPESP UNICAMP no sequenciamento da Xylella fastidiosa a bact ria causadora da Clorose Variegada dos Citros CVC praga popularmente conhecida como amarelinho A par do procedimento inteiramente shotgun as metodologias convencionais de sequenciamento utilizam v rias etapas de subclonagens 99 hierarquia de clonagens dependentes de mapeamentos diversos para ordenamento das sequ ncias feitas a partir de clones em plasm dios que s o montados em segmentos cont nuos de DNA contigs em peda os cada vez maiores at o cromossomo completo Santos e Ortega 2001 Vide Figura 3 4 1 a seguir Clonagem hier rquica Shotgun cromossomo Com osSeEDmo T OGO Cl OGO GO AA CI 1 CO Cd 1 1 EEE EEE Biblioteca de clones grandes descobre se a ordem certa Bibliotecas de plasm dios escolhem se os pouco sobrepostos faz se o sequenciamentos dos plasm dios sobreposi o cria os contigs Em cada centro de segi enciamento Sobreposi o dos contigs fragmenta se 05 clones grandes em sub biblioteras de possiveis desconmtinuldades devem ser plasmi di
44. destes Sendo assim deve se ser capaz de acessar esses reposit rios de dados remotamente Modularidade um dos principais objetivos Consiste na capacidade de o programa receber a adi o de m dulos independentes que acrescentar o algum tipo de funcionalidade Esses m dulos poder o ser criados por outros grupos e integrados transparentemente ao programa Com essa filosofia de cria o pretende se enriquecer o espectro de servi os do programa atrav s da descentraliza o do desenvolvimento importante tamb m salientar que se deve estabelecer uma estrutura interna de compartilhamento de dados e resultados de forma a realmente se integrar os m dulos e permitir que o programa tenha controle efetivo sobre o processamento Interface gr fica presen a de uma rica interface gr fica de intera o com o usu rio visando permitir o acesso simples e r pido das funcionalidades bem como fornecer os resultados de forma intuitiva para facilitar o seu entendimento Uso da API Java 2D para implementar os visualizadores gr ficos Uso do padr o CORBA para comunica o entre os objetos O sistema dever ser modelado utilizando Linguagem Unificada de Modelagem UML padr o da Object Management Group Uso do Processo Unificado Rational RUP para acompanhamento do processo de desenvolvimento do Sistema j 152 Integra o com padr es da OMG para lifescience XML k A linguagem de desenvolvimento dever ser Java seguindo
45. e ent o iniciar o uso c Fluxo principal de eventos 1 2 3 4 i Clicar duas vezes no cone do Sistema Genoma Informar login e senha Escolher a op o Consulta O pesquisador seleciona a partir dos registros dispon veis no BD pairwise XML o projeto a biblioteca e a placa Escolher a op o An lise de sequ ncia Escolher um dos clones apresentados na lista Feito isso o Sistema recupera o resultado armazenado correspondente a esse clone ou sequ ncia Automaticamente o Sistema interage com o M dulo de anota o e faz com que esse obtenha os dados de anota o de cada sequ ncia envolvida Reunidas essas informa es o Sistema constr i a apresenta o gr fica e permite que o usu rio interaja com o novo resultado por exemplo filtrando registros por par metros espec ficos ampliando ou reduzindo o zoom dos objetos selecionado subconjunto de sequ ncias alterando a visualiza o para o hit selecionado etc d f 161 10 Se desejar executar outro aplicativo em seguida a partir da tela atual um subconjunto de sequ ncias deve ser selecionado clicando diretamente no hit e em seguida no bot o Adicionar 11 Para executar o pr ximo aplicativo desejado seleciona um item dentre aqueles constantes na lista de funcionalidades por exemplo alinhamento m ltiplo predi o de estrutura secund ria de prote na etc 12 Se n o desejar prosseguir basta clicar no b
46. e prote nas fez com que os atuais bancos de dados crescessem a uma propor o exponencial Em uma aplica o t pica de busca nessas bases a opera o b sica determinar quais das milhares de sequ ncias armazenadas apresentam maior similaridade com rela o a uma particular sequ ncia de interesse Os resultados s o relatados como uma lista ordenada de ocorr ncias seguida por uma s rie de alinhamentos individuais v rios escores e estat sticas Por isso a escolha do programa de busca do banco de dados e de v rios outros par metros opcionais pode causar um impacto na efetividade dessa busca Al m do mais existem v rias interfaces para facilitar a intera o tais como comandos de estilo console formul rios Web e E mails Uma vantagem desse enfoque que para qualquer alinhamento observado conseguem se anota es completas e cita es liter rias que podem ser obtidas por meio das ncoras de hipertexto disponibilizadas Baxevanis e Ouellette 2001 Esse ac mulo de dados criou uma necessidade por programas eficientes para serem usados em buscas nesses reposit rios No entanto a aplica o direta dos m todos de programa o din mica tornou se impratic vel para essa tarefa por tr s motivos a a busca seria extremamente demorada b Baxevanis e Ouellette 2001 esses algoritmos concentraram se no alinhamento de pares espec ficos mas para uma sequ ncia rec m determinada n o se teria nenhum caminho para sa
47. estar o participando ativamente do projeto fornecendo tecnologia e suporte para o desenvolvimento dos sistemas de bancos de dados softwares de an lise e confec o de novos algoritmos Um outro aspecto importante que essa Rede possui uma grande quantidade de pesquisadores com experi ncia em an lise de sequ ncias biol gicas modelagem molecular e rela es entre estrutura e fun o de prote nas Este ponto de grande valia pois solidifica a parte de minera o de dados na busca de funcionalidades para os genes encontrados Mais 8 relevante ainda a participa o desses pesquisadores no processo de cria o e desenvolvimento dos sistemas dando uma contribui o decisiva no sentido de identificar os tipos de an lises cab veis bem como auxiliando na consolida o e interpreta o dos resultados Pappas 2002 Dentre as diversas metas da Biofoco tr s delas se destacam para o prop sito desta Disserta o a modelar e desenvolver uma arquitetura para objetos distribu dos com a utiliza o de padr es abertos ex CORBA e linguagem Java para constru o de sistemas de apoio aos projetos de genoma e proteoma b desenvolver um sistema para armazenamento recupera o anota o identifica o alinhamento e outras funcionalidades para os projetos genoma e proteoma e c criar o portal de bioinform tica na internet que ter por objetivo compilar uma s rie de ponteiros com os servi os mais importantes
48. execu o nos moldes de uma linha de montagem Estes programas encontram se dispon veis mas s o codificados em diversas linguagens diferentes A proposta criar adaptadores universais utilizando o pattern facade para a chamada de tais programas de modo que eles se associem como m dulos independentes ao sistema geral permitindo que sua execu o seja distribuida parametrizada e ao mesmo tempo facilitando a adi o de novos m dulos Os resultados desses programas ser o traduzidos para XML permitindo uma melhor integra o e garantindo uma maior consist ncia nas an lises em geral Pappas 2002 O XML j vem sendo utilizado no Sistema Genoma para unmarshaling e marshaling dos resultados obtidos do programa BLAST vide Anexo No Sistema BLOOM o uso de XML ser expandido para tratar o retorno de cada ferramenta executada e para realizar a persist ncia dos atributos das classes de parametriza o e de filtragem de resultados 141 5 VIS O GERAL DO PROJETO 5 1 PROPRIEDADE INTELECTUAL A propriedade intelectual no caso do software desenvolvido ser restrita aos seus desenvolvedores e s institui es s quais esses s o filiados A utiliza o dos servi os ser totalmente aberta e os programas ser o distribu dos para todas as institui es participantes da Biofoco Pappas 2002 As co autorias ser o definidas de acordo com princ pios de tica da ci ncia a obriga o de inclus o do nome de um cole
49. explicada de outro modo cada um dos 10 melhores 84 subalinhamentos da ltima etapa escore acima do valor CUTOFF atalho representado por um n valorado em um grafo direcionado sendo esse valor igual ao seu escore Gusfield 1997 Seja u a representa o de um dos subalinhamentos come ando na posi o i j e terminando em i d j d na tabela e seja v um outro dos subalinhamentos come ando na posi o j Ent o estende se uma reta do n u at o n v no grafo se e somente se gt i d Ou seja v deve come ar em uma linha antes do t rmino de u na tabela Aplica se um valor a cada reta para penalizar qualquer lacuna que seja criada no alinhamento onde o subalinhamento u seguido pelo v Uma penalidade maior negativa deve ser aplicada ao v rtice u v se for maior que i d ou se existir uma dist ncia maior entre as duas diagonais que cont m u e v Alternativamente pode se usar uma penalidade constante para uma lacuna independente de quantos espa os a componha Essencialmente FASTA tentar encontrar um nico caminho de valor m ximo do grafo que gerar uma sa da denominada initn S N S Figura 3 3 17 Terceira etapa do FASTA jun o das regi es iniciais de diagonais diferentes Baseada em Martins 2000 k N 7 4 Determinar o alinhamento timo Para o escore mais elevado das 10 sequ ncias anteriores um escore otimizado opt computado pela execu
50. fico Existem diferentes modelos que podem ser utilizados para a constru o de uma matriz de dist ncia A partir dessa matriz ser reconstru da a rvore com um dado algoritmo sendo os dois mais utilizados a UPGMA Unweighted Pair Group Method with Arithmetic mean utiliza um algoritmo de organiza es sequenciais nos quais as rela es topol gicas s o identificadas por ordem de similaridade e a rvore filogen tica constru da passo a passo Primeiro deve se identificar dentro de v rias OTUs as duas que s o mais similares e trat las como uma nica chamada de OTU composta A partir da s o observados os outros grupos de OTUs e identificado o pr ximo par com maior similaridade que novamente arranjado e assim por diante at que sobrem apenas duas OTUs Figura 3 7 4 japonensis leucogeranus antigone RO rubicanda americana vi pio grus E ig rocal li Para dis eg monachus virgo canadensis j aponensis bugeranus Bugeranus virgo americana leucogeranus monachus grus nigri collis antigone rubicanda vipio rvore sem raiz rvore UPGMA Figura 3 7 4 Exemplo de rvore sem raiz e rvore UPGMA correspondente Fonte http www cb ufmg br Ibem aulas grad evol evolmol b 120 Neighbour Joining assume aditividade isto dada uma rvore os seus comprimentos s o aditivos se a dist ncia entre quaisquer pares de elementos a soma dos comprimentos dos sub percursos q
51. lia de vi Kabsch W amp Sander C 1983 FEBS Letters 155 179 182 111 prote nas provaram muito mais exatid o A combina o de sequ ncia de dados com sofisticadas t cnicas computacionais tais como rede neurais tem levado a ndices de precis o que ultrapassam 70 Segundo Le Nov re 2002 os diferentes enfoques para predi o de estrutura podem ser divididos em tr s gera es Tabela 3 6 1 Apenas os trabalhos originais e as implementa es mais recentes s o apresentadas aqui Estat stica dos p Predi o f Regras Vizinho mais res duos xxix baseada em Oii expl citas pr ximo redes neurais PR pd q mouan de simples res duos e sman 1974 Lim 19 4 Anni GOR1 1978 de uma sequ ncia simples Levin et al Holley and 1986 Karplus 1989 Nishikawa Qian and Segunda gera o and Ooi 1986 Sejnowski 1988 Intera es locais s o GOR3 1987 levadas em conta PREDATOR Yi and Lander 1993 1996 vi Garmier Osguthorpe Robson usa tabela de propens es calculadas primariamente de estruturas determinadas por cristalografia de raio x H uma matriz para cada tipo de caracter stica h lice alfa fita beta turn e coil A caracter stica de mais alto escore determinada para cada localiza o PH A id ia b sica desse enfoque a predi o do estado da estrutura secund ria do res duo central do segmento de teste baseado na estrutura secund ria
52. logas de estrutura j conhecida Outro ponto importante a identifica o de s tios covariantes ou muta es compensat rias em alinhamentos de RNA ou prote nas um forte argumento que sugere a intera o desses s tios na mol cula in vivo Busca por similaridades fracas mas significantes em bancos de dados de sequ ncias a sensitividade das buscas pode ser significativamente melhorada pela atribui o de pesos aos s tios de acordo com o seu grau de conserva o 106 Assim os alinhamentos m ltiplos de sequ ncias hom logas podem ser utilizados para gerar matrizes ou perfis espec ficos de proteina a serem usados por m todos buscas por perfis ou PSI BLAST que identificam membros pouco relacionados de uma fam lia em buscas nos bancos de dados f Projeto de primers para a rea o em cadeia de polimerase PCR visando ampliar ou identificar genes ou prote nas relacionadas identificar e usar regi es conservadas em um alinhamento para projetar primers que isolem um gene ou prote na similar codificando mRNA de um outro organismo g Filogenia molecular rvores filogen ticas moleculares contam com os alinhamentos m ltiplos de prote na ou DNA para inferir eventos de muta o dos quais seja poss vel hipot ticamente tra ar as rela es evolutivas entre as sequ ncias Tais rvores s o teis para reconstruir a hist ria de esp cies ou fam lias multig nicas e para identificar eventos de duplica o que distingue
53. mar o de 2002 http bioweb pasteur fr seqanal interfaces fasta html Site pesquisado em 05 04 2002 Pereira 2001 Pereira Gon alo Amarante Guimar es O projeto genoma de Crinipellis perniciosa fungo causador da vassoura de bruxa fundamentos e potencial contribui o Departamento de Gen tica e Evolu o Instituto de Biologia UNICAMP Brasil goncalo Municamp br PROSITE 2002 PROSITE Banco de dados de familias e dom nios de proteinas mar o de 2002 http www expasy ch prosite Site pesquisado em 25 03 2002 PSC 1999 Centro de Supercomputa o de Pittsburgh PSC Segunce Analysis Which scoring method should I use novembro de 1999 USA http www psc edu research biomed homologous scorng primer html Site pesquisado em 01 03 2002 Rocha 2000 Rocha Eduardo Folhas de Bioinform tica e An lise de Segii ncias Instituto Pasteur Fran a 2000 erocha pasteur fr http wwwabi snv jussieu fr people erocha curso pt pdf ite pesquisado em 03 10 2001 Raupp 2002 Raupp Fernanda Similaridades alinhamentos e perfis http www Incc br biologia downloads sapdownload pdf Site pesquisado em 03 04 2002 Russell 2002 Russell Rob 4 Guide to Structure Prediction version 2 1 Alemanha 2001 http speedy embl heidelberg de gtsp secstrucpred html Site pesquisado em 03 04 2002 188 Santos 2000 Santos Francisco Prosdocimi Filogenia molecular Brasil
54. ncias de resultados mais altos s o submetidas a um alinhamento pelo algoritmo Smith Waterman sem limita o do tamanho de lacuna O n mero de alinhamentos feitos deste modo depende do escopo da busca definido pelo usu rio 86 II BLAST Quase imediatamente ao seu lan amento em 1990 BLAST tornou se a ferramenta dominante para busca de sequ ncias em bancos de dados As raz es iniciais para esse sucesso deveram se velocidade ao fato de que apresentada uma sa da com v rias solu es e a que cada identidade acompanhada de uma estimativa de signific ncia estat stica essencialmente a probabilidade de que uma identidade de um certo valor ou melhor possa ser encontrada em sequ ncias aleat rias Por isso desde a introdu o do BLAST FASTA tem evolu do e agora tamb m apresenta uma sa da de dados com as mesmas caracter sticas Mesmo assim BLAST ainda continua dominante Gusfield 1997 Pode se afirmar que BLAST originou se da converg ncia de tr s objetivos O primeiro foi um esfor o geral de David J Lipman Warren Gish e outros de seus colegas no NCBI para aumentar a velocidade do FASTA pela introdu o de regras mais severas para localizar menos e melhores alinhamentos dos hot spots O segundo foi um V trabalho de busca sublinear de Myers o qual introduziu as id ias de vizinhan a de subs ries e m quina de estados finitos para localizar os hot spots iniciais O terceiro foi o trabalho d
55. no Sistema proposto e eeereeererererenama 132 4 5 CORE sas RO NE ARS aa SR SS CRASE RSS RUAS a E 135 4 6 AN E A E E T T e E E ER E 139 5 VISAO GERALDO PROJETO isa Ta TS 141 5 1 PROPRIEDADE INTELECTUAL asno TD E E RS E on 141 SUM RIO 5 2 PLANO DE DESENVOLVIMENTO ubain ae a E 141 5 3 OPORTUNIDADE CIENT FICA iara teares 142 5 4 DETALHAMENTO OU SENTEN A DO PROBLEMA aannnoannnannnnnnnnnnnsnnnsnrnnnnrrsnrrnerrsnrrsnrrnenrene 142 5 5 POSICIONAMENTO DO PRODUTO ses doer b rio e a a Seia LES 145 2 6 DESCRI O DA EQUIPE CLIENTE E DOS USU RIOS ns 146 5 7 INTERA ES OU PERSPECTIVAS DO PRODUTO 146 5 8 APLICABILIDADE DE PADR ES sa a sranisdudai assa inicia dead Sa cina ana Gia nina snbi ssa oia nad 151 5 9 LISTA DE RISCO Sassi A too eU abas sado iai ca a os 152 2 10 ARQUITETURA CANDIDATA sus passa di siios noi a e aa EL paia idea e sal 153 5 10 1 Organiza o do sistema em camadas e eeeeeereneneerennereena e ereaa a eranannna 153 5 10 2 Mecanismo de persist ncia erre erre aerea arranca aa ea ea ee aaa na rena aeano 154 5 10 3 Comunica o com sistemas externos ci e ereeereeeeereaerean re ea eee n rea re aerea arenas 154 5 11 VISAO DE CASOS DE USO sans aa Cosa E A AA 155 Dolo AOS oenn e E a a E T STAR RR RAR 155 5 11 2 Casos de uso do ator Pesquisador e eereeererene renan eea aerea rea aa rreaanena 157 511 Casosqe iso do dlof CIOCK assi rasas E E u
56. o encapsulamento a implementa o de uma subclasse torna se t o dependente da implementa o da sua superclasse que qualquer mudan a nesta for ar uma mudan a naquela Apesar disso reutiliza o atrav s de heran a torna mais f cil a cria o de novos componentes a partir de outros j existentes Por essa raz o embora a recomenda o seja priorizar o uso de composi o heran a e composi o s o recursos complementares Design patterns n o devem ser aplicados indiscriminadamente pois embora tornem os projetos flex veis podem tamb m complic los e acrescentar lhes um custo de performance Um design pattern deve portanto ser aplicado somente quando a flexibilidade realmente necess ria As se es de consequ ncias s o muito teis para avaliar os benef cios e as desvantagens do pattern 4 4 1 Os patterns mais utilizados no Sistema proposto O pattern MVC O padr o Modelo Vis o Controlador MVC Model View Controller consiste na defini o de tr s classes distintas onde o View representa a camada cliente ou de apresenta o o Controller a camada de l gica do neg cio ger ncia de eventos de interface e da aplica o e o Model a camada de armazenamento ou de acesso aos dados Mangan 1999 Por exemplo poder se iam combinar tr s classes para criar uma aplica o que permite a edi o de um texto A classe de apresenta o de dados poderia ser um campo de texto textfi
57. o do plano de desenvolvimento de software Ser o utilizados os valores 1 Alto 2 M dio e 3 Baixo para qualificar os atributos riscos necessidade e complexidade conforme Tabela 5 11 1 A cada itera o necess rio rever a prioridade dos casos de uso Complexidade Risco Visualizar alinhamento pairwise 1 Alta 1 Alta 1 Alto 1 Alta 2 M dia Predizer estrutura secund ria de proteina 2 M dia Executar tarefa 2 M dia Manter wish list 2 M dia Realizar consulta baseada na wish list 2 M dia Incluir tarefa 3 Baixa Manter tarefa 3 Baixa Tabela 5 11 1 Prioridade dos casos de uso 5 11 5 160 Detalhamento de alguns casos de uso I Visualizar alinhamento pairwise a Breve descri o a partir dos dados de alinhamento pairwise obtidos do BD pairwise XML por interm dio do Sistema Genoma este caso de uso possibilita ao Pesquisador obter os dados de anota o das sequ ncias envolvidas filtrar o resultado que pode conter dezenas ou centenas de hits utilizando par metros espec ficos e principalmente visualizar e manipular graficamente todo o conjunto resultante b Pr condi es 1 Acessar localmente o Sistema Caso a vers o esteja desatualizada o aplicativo Java Web Start se encarrega de baixar a nova vers o automaticamente Se for O primeiro acesso o pesquisador deve recorrer p gina do Laborat rio de Bioinform tica baixar a aplica o para sua m quina local
58. order to be converted into an effective benefit in medicine agronomy and many other areas all this genetic information needs to be processed compared and analysed which are the new challenges of bioinformatics mathematics and statistics to integrate and to make these data available through tools that allow specialists to look into such information even those who are not into computer and molecular biology The purpouse of this research is to integrate the largest possible number of services of sequence analysis condensing them in one aplication of interative graphic interface Initially four services are to be considerate pairwise alignment multiple alignment protein secondary structure prediction and phylogenetic tree derivation Through this study it is supposed to make the genomic analysis more accessible efficient and simplified allowing researchers to concentrate mainly on the results of the biological interpretation As far as bioinformatics is concerned the results obtained in this research leads to the conclusion that the developing application software has made possible for the Biofoco researchers better management organization and availability of the genomic information and the use of this software as a datamining tool helping the visualization and exploration of the information that travels in and out through the many integrated tools Concerning informatics some of its main achievements are validation and use of object or
59. para transformar LEITOR em ESCRITOR b Para transformar AGCACACA em ACACACTA seguem duas possibilidades e a primeira a transcri o tima Tabela 3 3 2 E G G G G G 0 1 0 0 0 0 0 1 0 0 Tabela 3 3 2 Dist ncia Levenshtein ou de edi o para transformar AGCACACA em ACACACTA Matematicamente transcri o e alinhamento s o equivalentes e pode se deduzir uma medida a partir da outra toma se a transcri o tima atribui se um valor x para cada par de caracteres divergentes atribui se um valor y menor que x para cada ocorr ncia de espa os e ent o obt m se o resultado final pela soma de todos os valores encontrados Quanto maior o resultado final melhor o alinhamento e maior a similaridade Apesar da equival ncia mostrada acima esses conceitos guardam significados distintos A transcri o enfatiza os eventos mutacionais caracter por caracter que transformam uma sequ ncia em outra enquanto o alinhamento apenas mostra a rela o existente entre essas duas sequ ncias Se o primeiro o processo o segundo o produto Al m disso diferentes modelos evolucion rios formalizam se por diferentes edi es e todavia podem resultar um mesmo alinhamento Gusfield 1997 A aplicabilidade da dist ncia de edi o abrange diversas reas dentre elas estudos funcionais estruturais e evolucion rios de sequ ncias 44 biol gicas recupera o textual
60. prefer ncias Bossa sadso oa Impossibilidade quanto aos produtos atuais de livre acesso de agendar e reexecutar atividades relativas s sequ ncias de interesse armazenadas no BD pairwise XML por exemplo uma nova consulta BLAST Os dados armazenados tornam se obsoletos desatualizados em um curto per odo de tempo o que requer atualiza es frequentes Pode ser algo trabalhoso e que nem todo pesquisador disp e de tempo para efetuar Loo 6 O problema O impacto disto 7 O problema Economia de tempo e de esfor o para execu o e reexecu o de atividades evitando esquecimentos e principalmente obsolesc ncia de dados Inexist ncia de uma ferramenta orientada a objetos que atenda aos prop sitos listados acima que permita reuso 8 O problema e inser o gradual de novas funcionalidades utilizando objetos ou componentes distribu dos de maneira segura Todos os pesquisadores interessados em pesquisa na Afeta quem rea de bioinform tica inclusive os integrantes da Biofoco O impacto disto Uma solu o de sucesso permitir 145 As arquiteturas das ferramentas atuais n o permitem expans o gradual do aplicativo reuso de c digo seguran a do servidor de dados e integridade das informa es que trafegam na Internet Utilizando metodologias atuais como UML e RUP um aplicativo robusto poder ser constru do com tecnologias do tipo JAVA XML J2EE Corba etc Tabel
61. que em 1992 diferentemente das matrizes PAM constru das em 1978 muitas outras sequ ncias de proteinas j haviam se tornado conhecidas e assim essas matrizes incorporaram novas observa es de substitui es de amino cidos O segundo fator que as substitui es usadas na constru o das matrizes BLOSUM s o aquelas substitui es diretamente observadas em blocos bem conservados de alinhamento multiplo das sequ ncias PSC 1999 e n o por extrapola o de uma matriz inicial o caso das matrizes PAM com rela o PAM1 Limitando as substitui es inclu das aos blocos bem conservados isso leva a pelo menos dois benef cios a os alinhamentos s o mais confi veis nesses blocos e a propor o de substitui es falsas ficam reduzidas e b igualmente importante talvez esses blocos bem conservados sejam as regi es mais prov veis de serem encontradas nas buscas em bancos de dados e assim as matrizes BLOSUM representam os padr es de substitui o mais apropriados PSC 1999 76 A matriz BLOSUM62 E O E A ato ae Oi Oi O Z RO PESQ Ss Ss cam IPT Tabela 3 3 13 A matriz BLOSUM62 Os amino cidos est o agrupados de acordo com as propriedades do Radical C sulfidril STPAG pequenos e hidrof licos NDEQ cido amido cido e hidrof lico HRK b sicos MILV pequenos e hidrof bicos e FYW arom ticos Comparada matriz PAM160 esta matriz BLOSUM62 atribui valores positivos maiores para
62. respirat rios e de muitas c lulas tanto animais quanto vegetais Por acaso ou by chance por mera coincid ncia l Gap significa lacuna v cuo intervalo ou dist ncia em portugu s Crossover desigual ou unequal crossing over em ingl s ocorre durante a meiose e deve se ao fato de os cromossomos hom logos se encontrarem desalinhados no momento do crossover O desemparelhamento dos pares de genes em cada cromossomo hom logo leva a que ap s o crossover os cromossomos resultantes possuam duplica o e dele o de um ou mais genes Vide http eden dei uc pt abs asimoes pdf gt Meiose segundo o dicion rio Aur lio S culo XXI significa 1 processo de divis o pelo qual as c lulas filhas t m metade dos cromossomos da c lula m e Retrov rus segundo o dicion rio Aur lio S culo XXI significa 1 cada um de um grande grupo de v rus RNA no qual est o inclu dos os leucov rus e os lentiv rus gt Transloca es segundo o dicion rio Michaelis significa 1 mudan a de posi o de um segmento de um cromossomo para outra parte do mesmo ou de outro cromossomo gt Sensitividade a habilidade de um m todo em reconhecer segiu ncias distantemente relacionadas Muta o pontual aceita o termo neste contexto significa uma muta o que foi incorporada na prote na e passada aos seus descendentes Ent o ou a muta o n o mudou a fun o da prote na ou a mudan a na proteina
63. se justifica caso seja poss vel interpret los consistentemente Um primeiro passo verificar se outras sequ ncias similares e hom logas j foram estudadas pois conhecendo a fun o de uma pode se transferir essa informa o para as sequ ncias relacionadas Essa verifica o pode ser executada de forma r pida pela utiliza o de programas de computador Chega se portanto a um quadro em que os experimentos passam a ser realizados primeiramente in silico para depois serem confirmados in vivo ou in vitro Conforme atesta Kim 2002 provavelmente a ferramenta computacional mais largamente usada para an lise comparativa o BLAST NCBI Education 2002 que pesquisa bancos de dados como o GenBank em busca de todas sequ ncias similares a uma determinada sequ ncia de busca target ou query sequence Nos dias de hoje 4 quando pesquisadores isolam uma nova sequ ncia molecular a primeira coisa que fazem executar o BLAST contra os bancos de dados existentes Segue um exemplo de chamada do BLASTn Figura 1 1 3 Co a es N E BI nucleotide nucleotide B LA s T Mucleotide P roteln Translations Fetrieve results for an KID COCOTOGCCOCCCOOGCCAGCAGTOGTAACAACGCAGAGACCOTCOGCCOTOGAGGTOTTT search JGCAGCATATCA TCTGCTGTALTCAGTOTGTCSCTTCTGCACALTCAGAGACTOTCTCAT i H al CTCTECCACTCLAC OGTGGAAGTTGCCTTGTGECECTADACTGLATTGACAAATOCATTGTASC Set subsequence From FT Ta Choose database http ww
64. seja encontrado pelo algoritmo Smith Waterman O caminho para esse alinhamento n o precisa atingir as margens do 54 gr fico de busca mas pode come ar e terminar internamente a esse Tal alinhamento seria localmente timo se seu escore n o pudesse ser melhorado pelo aumento ou pelo decr scimo de sua extens o Esse algoritmo est embasado por uma propriedade de que o escore acumulativo para um caminho decrescer em regi es de sequ ncias com baixa identidade Quando o escore cai a zero a extens o do caminho terminada e um novo caminho pode ser iniciado Podem existir muitos caminhos individuais limitados por regi es de baixa identidade e aquele com o mais alto escore ser ent o relatado como o alinhamento local timo Baxevanis e Ouellette 2001 importante ter em mente que m todos timos sempre reportam o melhor alinhamento que pode ser encontrado mesmo que n o apresente nenhum significado biol gico Por outro lado quando se busca por alinhamentos locais pode ser que existam v rios alinhamentos significativos e seria um erro considerar apenas aquele timo Refinamentos ao algoritmo Smith Waterman foram propostos para detectar os k melhores alinhamentos locais Essas id ias foram mais tarde estendidas no desenvolvimento do algoritmo SIM por Huang em 1990 e um programa chamado lalign distribu do com o pacote FASTA prov uma implementa o til desse algoritmo A busca por subalinhamentos especialmen
65. tecnologia de objetos n o garante isso O reuso tem que ser planejado Nesse contexto a ess ncia dessas solu es j executadas pode ser apresentada como um padr o pattern que se repete em diversos problemas os quais nem sempre se encontram relacionados vide Por exemplo de uma maneira grosseira o diagn stico e o tratamento de doen as na medicina podem ser comparados com a aplica o de padr es Quando um paciente procura um m dico ele informa a sua situa o atual e o m dico tenta identificar sintomas de uma anomalia problema Ao identificar uma s rie de sintomas o m dico tenta encontrar os registros de outros casos semelhantes Esses casos anteriores fazem parte da experi ncia do m dico ou foram apresentados durante o seu curso de medicina Ao detectar qual a mol stia do paciente o m dico tenta iniciar um tratamento solu o que na maioriada das vezes vai apresentar efeitos ben ficos como a cura do paciente e alguns efeitos colaterais n o desejados como desconforto durante o tratamento imobiliza o etc Esses efeitos em conjunto s o x BUSCHMANN Frank MEUNIER Regine ROHNERT Hans SOMMERLAND Peter STAL Michael Pattern Oriented Software Architecture A System of Patterns John Wiley amp Sons 1996 457p 130 a consequ ncia da aplica o da solu o Para facilitar a comunica o entre si os m dicos convencionaram nomes para as doen as Mangan 1999 Segundo Christopher
66. um ancestral comum e todas os organismos derivados s o inclu dos o que tamb m chamado de grupo monofil tico o nico tipo de agrupamento aceito pelos cladistas ou seja n o s o aceitos os grupos parafil tico e polifil tico Figura 3 7 1 Esquema de uma rvore filogen tica Baseada em http www ncbi nlm nih gov About primer phylo html Os principais tipos de rvores s o Bioinfo 326 2002 a b rvore com raiz rooted tree aquela em que um n especial indicando o ancestral comum para todas as OTUs est presente a raiz rvore sem raiz unrooted tree aquela em que a posi o do ancestral comum n o est especificada Mostra apenas as rela es evolucion rias entre os organismos sem mostrar a dire o do processo rvore real true tree representa o caminho evolucion rio atual pelo qual o conjunto de organismos foi criado rvore inferida inferred tree criada por programas de an lise evolucion ria rvore de esp cie species tree representa a evolu o de um grupo de esp cies 118 f rvore de gene gene tree constru da a partir de um gene de cada esp cie tida como uma representa o mais acurada e menos amb gua de uma rvore de esp cie do que aquela obtida apenas por compara es morfol gicas Quanto representa o de uma rvore al m do cladograma modo gr fico h um outro tipo simplificado e em modo texto que recebe o nome d
67. uma proteina a um banco de dados de TFASTS proteina ou DNA traduzido Tabela 3 3 14 Os algoritmos da fam lia FAST Mais que comparar res duos individuais em duas sequ ncias FASTA procura por identidade de padr es ou palavras k tuplas e ent o tenta construir um alinhamento local baseado nessas identidades Devido s suas alta velocidade e sensitividade tornou se bastante til para especificar a fun o de sequ ncias rec m determinadas em laborat rio o que feito por meio de compara es com outras sequ ncias relacionadas dispon veis nos atuais banco de dados FASTA compar vel ao BLAST no que diz respeito ao algoritmo e confiabilidade mas pode ser mais sens vel a buscas de fam lias 80 de proteinas Recomenda se seu uso tamb m para buscas de sequ ncias de DNA ao inv s do uso BLAST BLC 1999 S o 6 as etapas executadas pelo algoritmo 1 Localizar os hot spots FASTA permite a especifica o de um par metro chamado k tuplas abrevia o de k respectivas tuplas que determina o tamanho base da palavra para compara o entre a sequ ncia de busca e uma outra no banco de dados Os valores k tuplas s o tipicamente 4 ou 6 para sequ ncias de DNA e para sequ ncias de prote na FASTA focaliza regi es onde existam identidades aos pares k tuplas 2 ou unit rias k tuplas 1 Gusfield 1997 As subsequ ncias id nticas com tamanho k tuplas s o referenciadas como not spots
68. variedade de esp cies desde a mosca da fruta a sapos ou humanos e regulam o desenvolvimento embrion rio os homeodom nios conservados n o toda a sequ ncia chegam a apresentar 50 a 95 de identidade sem espa os em certas esp cies b os diversos m dulos de dom nios comuns dom nio de atividade da serino protease K fator parecido ao do 48 crescimento epid rmico E fribonectina etc entre o fator de coagula o sangu nea F12 e o ativador plasminog nio do tecido humano Baxevanis e Ouellette 2001 p 190 Ainda quanto s proteinas o alinhamento local adicionalmente importante porque diferentemente do alinhamento global pode detectar que caracteres particulares isolados de sequ ncias relacionadas podem estar mais conservados que o resto da mesma proteina por exemplo o caso dos amino cidos do s tio ativo de uma enzima ou aqueles do centro hidrof bico de uma prote na globular Um bom exemplo s o as serino proteases onde alguns poucos e isolados caracteres identificam a fam lia Um outro exemplo o motivo h lice volta h lice helix turn helix que ocorre frequentemente nas proteinas que se ligam ao DNA na regula o da etapa de transcri o e normalmente apresentam o amino cido glicina na d cima posi o enquanto o resto da sequ ncia bastante vari vel Gusfield 1997 p 231 Neste tipo de alinhamento tamb m se pode adotar um escore para as subsequ ncias seguindo o modelo do alin
69. veis ir aumentar exponencialmente superando os limites de se procederem an lises experimentais detalhadas para todos os genes ou regi es de interesse Sem d vida a bioinform tica uma das chaves para que se possa analisar esses dados Pappas 2002 Por m no Brasil a maioria das pesquisas com genoma s o sustentadas por aplicativos de dom nio p blico desenvolvidos no exterior adaptados realidade nacional O Conselho Nacional de Desenvolvimento Cient fico e Tecnol gico CNPq percebendo a necessidade de revers o do quadro selecionou no ano de 2001 28 projetos em bioinform tica para financiamento dentre eles o Rede de pesquisa e desenvolvimento em bioinform tica do Centro Oeste Biofoco cons rcio entre CENARGEN EMBRAPA Universidade de Bras lia e Universidade Cat lica de Bras lia coordenado por Georgios Joannis Pappas J nior e tem a finalidade de criar uma rede de pesquisa e desenvolvimento em bioinform tica que integre institui es l deres em pesquisa e ensino com foco no centro oeste e que seja capaz de oferecer apoio aos grupos e redes de pesquisa de genoma e proteoma conhecimentos ferramentas e sistemas avan ados associados a iniciativas de capacita o de t cnicos e pesquisadores Em termos de recursos humanos existe uma integra o entre bi logos e informatas na Biofoco Primeiramente pesquisadores dos departamentos de computa o da UCB e engenharia de redes e computa o da UnB
70. 0 Os amino cidos est o agrupados de acordo com as propriedades do Radical C sulfidril STPAG pequenos e hidrof licos NDEQ cido amido cido e hidrof lico HRK b sicos MILV pequenos e hidrof bicos e FYW arom ticos Os valores est o expressos como logaritmos de base 10 aproximadamente 1 3 dos valores bit Baseado em http www blc arizona edu courses bioinformatics dayhoff html 69 As matrizes da fam lia PAM possuem vantagens te ricas sobre outros m todos alternativos de escore para alinhamentos Do ponto de vista biol gico essas matrizes s o constru das por meio de muta es observadas Assim elas cont m informa es sobre o processo que gera muta es bem como sobre os crit rios importantes na sele o e no estabelecimento de muta o em uma certa popula o Do ponto de vista estat stico essas matrizes s o as mais precisas descri es das mudan as dos amino cidos mudan as essas que s o esperadas ap s um dado n mero de muta es e que podem ser derivadas de um banco de dados para criar as pr prias matrizes PSC 1999 Dessa forma o mais alto escore de alinhamento estatisticamente o mais prov vel de ter sido gerado por evolu o e n o por chance O argumento estat stico aplica se estritamente aos alinhamentos locais sem lacunas mas talvez possa tamb m ser utilmente aplicado queles com lacunas que s o produzidos por muitos programas de busca em bancos de dados N
71. 0 esse especialista passava por um problema relacionado arquitetura e engenharia civil Percebendo que todas as constru es de edificios que eram funcionais e confort veis possu am algumas caracter sticas em comum resolveu catalogar essas solu es em seu livro The Timeless Way of Building Durante anos os especialistas na rea de engenharia de software tentaram adequar as id ias de Alexander para a constru o de sistemas de informa o Finalmente em 1994 liderados por Erich Gamma a GoF Gang of Four Erich Gamma Richard Helm Ralph Johnson e John Vlissides publicaram o livro Design Patterns Elements of Reusable Object Oriented Software que deu origem onda dos Patterns na rea de inform tica pois considerado o primeiro cat logo bem descrito sobre patterns de projeto para programas orientados a objeto Ap s isto seguiram outros livros de outros autores publica es papers confer ncias entre outros i GoF Gang of Four Apelido dado ao grupo composto por Erich Gamma Richard Helm Ralph Johnson e John Vlissides Publicaram o livro Design Patterns Elements of Reusable Object Oriented Software que deu origem onda dos patterns na rea de inform tica 131 Existem diferentes tipos de padr es dentre os quais se destacam padr es para projeto design patterns padr es para an lise analysis patterns e padr es para organiza o de bancos de dados data patterns Existem tamb m padr es pr
72. 002 Uma variedade de tipos de algoritmos de alinhamento multiplo est o dispon veis entretanto para esta Disserta o ser considerado o primeiro item da lista mostrada abaixo a Algoritmos heur sticos que s o baseados em um enfoque de alinhamento pairwise progressivo S o exemplos ClustalW http www ebi ac uk clustalw b c d e f 108 PileUp CGC http www hgmp mrc ac uk Courses gen1day gcg practicals html e MACAW dispon vel via ftp no NCBI ftp ftp ncbi nim nih gov pubs schuler macaw O ClustalW recomendado para alinhamentos locais A penalidade de lacunas tornam se mais altas onde as sequ ncias s o mais parecidas aumentando a probabilidade de encontrar regi es conservadas J o PileUp um programa de alinhamento global e deve ser usado apenas para um conjunto de sequ ncias parecidas e com o mesmo comprimento aproximado Aqueles que garantem encontrar o alinhamento timo para um certo esquema de escore Deve se notar que timo definido aqui em um sentido matem tico que n o nercessariamente corresponde ao sentido biol gico Esses algoritmos podem apenas ser usados para um n mero limitado de pequenas sequ ncias Algoritmos heuristicos que constr em um alinhamento global baseado nos alinhamentos locais Algoritmos heur sticos que constr em alinhamentos m ltiplos locais Algoritmos baseados nos Modelos Ocultos de Markov HMM Algoritmos baseados em algoritmos gen ticos
73. 03 2002 J2EE 2002 Designing Enterprise Applications with the J2EE Platform segunda edi o http java sun com blueprints guidelines designing enterprise applications 2e introduction introduction htm 141045529 Site pesquisado em julho de 2002 JalView 2002 JalView Java multiple alignment editor http www es embnet org Doc jalview contents html e http Awww2 ebi ac uk michele jalview contents html Sites pesquisados em agosto de 2002 Kim 2002 Kim Junhyong Computers are from Mars Organisms are from Venus Computer Volume 35 N mero 7 USA julho de 2002 Kuhn 2001 Kuhn Gustavo C S Multiple Sequence Alignmen Email geskuhn Drge fmrp usp br http www rge fmrp usp br cursos topicosin paginas web20 20multiple htm Site pesquisado em 05 05 2002 Le Nov re 2002 Le Novere Nicolas Protein secondary structure prediction Instituto Pasteur Fran a 2002 http Awww pasteur fr recherche unites neubiomol secstrpr html Site pesquisado em 26 04 2002 Mangan 1999 Mangan Marco Aur lio Souza Vargas Patr cia Kayser Azzolin Denny Tecnicas para Desenvolvimento de Aplica es Orientadas a Objetos Utilizando a Linguagem Java http www inf ufrgs br kayser sblp99 TutorialSBLP99 html Site pesquisado em 25 06 2002 187 Martins 2000 Martins Wellington S Discovery Informatics I Bioinformatics Prof Dr do Laborat rio de Sistemas Paralelos e Arquitetura de Com
74. 198 425 443 22m Frissman D Argos P 1996 Incorporation of non local interactions in protein secondary structure prediction from the amino acid sequence Prot Eng 9 133 142 Frisnman D Argos P 1997 Seventy five percent accuracy in protein secondary structure prediction Proteins 27 329 335 Yi TM and Lander S 1993 Protein secondary structure prediction using neirest neighbor methods J Mol Biol 232 1117 1129 112 Zvelebil et al 1987 NNSSPX 1995 Terceira Gera o Informa es vinda PHD 1993 de sequ ncias Jnet 1999 hom logas s o Rea PSIPRED X 1999 incorporadas DSC 1996 NNPREDICT 1996 SOPMA 2002 Tabela 3 6 1 As 3 gera es de enfoques para predi o de estrutura secund ria de proteina Alguns autores inclusive Le Nov re 2002 aconselham a seguinte pr tica para lidar com a diversidade de algoritmos de predi o de estrutura a Evite o algoritmo Chou and Fasman b Observe a precis o dos algoritmos em benchmarks padronizados e situa es da vida real c Use m todos baseados em alinhamentos m ltiplos d Verifique cuidadosamente os alinhamentos para evitar redund ncias e Use v rios m todos independentes e de exatid o similar f Em caso de desacordo os mais confi veis s o PHD Jnet e PSIPRED A seguir a estrutura tridimensional da prote na Flavodoxina Anacystis nidulans Vide Entrez Structure PDB ICZU PDBsum Figura 3 6 1 e um exemplo de pr
75. 2 2 a 1 1 max alfli 1 j 1 p i j 1 o0ondep i j 1 a li 1j 2 2 Figura 3 3 8 O in cio da computa o tabular para alinhamento local das seq ncias s AAAC e t AGC parte 1 2 0 alij 1 2 2 a 4 3 max Jali 1 j 1M p j 1 ondep ij J 1 a li 1j 2 2 Figura 3 3 9 O resultado final da computa o tabular para alinhamento local das seq ncias s5AAAC e t AGC parte 2 2 61 O terceiro e ltimo componente essencial da programa o din mica o rastreamento reverso por meio do qual se podem construir todos os poss veis alinhamentos local e global entre as duas sequ ncias Da mesma maneira que se procedeu quanto computa o tabular o rastreamento reverso tamb m pode ser executado por um algoritmo recursivo Em seguida apresentado o pseudoc digo do algoritmo Align m n len o qual construir o caminho para o alinhamento timo tendo como par metros a matriz a e as sequ ncias s e t Figura 3 3 10 Os caracteres alinhados que tanto podem ser espa os ou s mbolos estar o armazenados nas posi es 1 len ltima posi o ou tamanho dos vetores align s e align t O escopo visibilidade desses vetores global O retorno desse algoritmo o atributo tamanho do alinhamento preciso notar que max I sl t lt len lt m n OU Seja O tamanho do alinhamento maior ou igual ao valor m ximo entre o tamanho das sequ ncias s ou t e no entanto menor i
76. 4 por sua vez usado pelo PSI BLAST Seguem os 4 passos para execu o do procedimento 90 1 Compilar uma lista com palavras de alto escore sendo que cada uma significa uma semente As palavras coincidentes word hits s o identificadas Por palavra entenda se um segmento cont guo subs rie de uma das sequ ncias e que tem um tamanho pr determinado tal como 10 para sequ ncia de DNA e 3 ou 4 para sequ ncia de proteina Desse modo duas palavras coincidentes s o um par de segmentos muito similares derivadas das sequ ncias envolvidas Para o caso de DNA as sequ ncias devem ser id nticas baseando se numa matriz de escore unit ria enquanto que para proteinas as sequ ncias devem apresentar alto escore de alinhamento baseado em alguma das matrizes de substitui o por exemplo PAM ou BLOSUM Este processo extremamente r pido consumindo tempo proporcional soma dos tamanhos das sequ ncias Bioinfo 326 2002 Vide Figura 3 3 19 a seguir Sementes Seqii ncias do banco de dados Identidades exatas de palavras da lista em rela o s sequ ncias do banco de dados Figura 3 3 19 BLAST Compila o de uma lista com palavras de alto escore semente Baseado em Martins 2000 Para sequ ncias de proteina a lista de palavras de alto escore consiste de todas as palavras com W caracteres chamados de w mers que apresentem um escore maior ou igual a T escore da palavra quando
77. Alexander cada pattern descreve um problema que ocorre v rias vezes em nosso ambiente e o n cleo de uma solu o para esse problema de forma que se possa reutiliz la diversas vezes Segundo a GoF um pattern em geral formado por quatro elementos essenciais a saber Sipert 1998 a Nome uma refer ncia que pode ser usada para descrever um problema de projeto suas solu es e consequ ncias atrav s de uma ou duas palavras A nomea o de um pattern aumenta o nosso vocabul rio de projeto e nos permite trabalhar com um alto n vel de abstra o pois podemos descrever uma solu o inteira utilizando apenas uma express o ao inv s de uma lista de objetos e seus relacionamentos b Problema descreve quando aplicar o pattern Explica o problema e seu contexto Algumas vezes o problema incluir uma lista de condi es que devem ser satisfeitas antes de se aplicar o pattern c Solu o descreve os elementos que comp em o Projeto seus relacionamentos responsabilidades e colabora es A solu o n o descreve implementa o ou projeto concreto em particular porque um pattern como um molde que pode ser aplicado em v rias situa es diferentes d Consequ ncias s o os resultados as vantagens e as desvantagens da aplica o do pattern Geralmente envolvem quest es de espa o tempo flexibilidade extensiblidade portabilidade linguagem e implementa o Christopher Alexander no final da d cada de 7
78. Dentre os algoritmos listados acima alinhamentos multiplos progressivos s o os m todos mais comumente usados para alinhar sequ ncias biol gicas pois s o r pidos requerem pouca mem ria e oferecem boa performance para sequ ncias hom logas relativamente conservadas Conforme Figura 3 5 3 a seguir o alinhamento m ltiplo final obtido favorece as sequ ncias mais parecidas da seguinte maneira a b Computar os escores do alinhamento ou dist ncias entre todos os pares de sequ ncias encontrar quais sequ ncias s o mais similares pela compara o de todas as combina es usando o m todo de programa o din mica As sequ ncias mais similares s o ainda localmente alinhadas utilizando novamente programa o din mica Construir uma rvore guia que reflita as similaridades entre sequ ncias usando as dist ncias do alinhamento pairwise uma sequ ncia consenso derivada de cada uma dessas compara es As sequ ncias consensos s o alinhadas entre si ou com outras similares 109 c Alinhar as sequ ncias seguindo a rvore guia correspondendo a cada n da rvore o algoritmo alinha dois n s filhos s duas sequ ncias ou aos alinhamentos que estejam associados com ele O processo repetido come ando das folhas as sequ ncias e finalizando na ra z da rvore Sl ES s E 3 dm 5 Passo a computar alinhamento pairwise entre todas as sequ ncias para calcular a matriz de dist ncia SI
79. E PCR Polimerase Chain Reaction ou Rea o em Cadeia da Polimerase PDB Protein Data Bank ou Banco de Dados de Prote na 02022 F PDS Persistent Data Service ou Servi o de Dados Persistentes PHRAP PHRagment Assembly Program ou phil s revised assembly program ou o programa de montagem de fragmentos POS Persistent Object Service ou Servi o de Objeto Persistente PSI BLAST Position Specific Iterative BLAST ou BLAST lIterativo de Posi o S Espec fica RNA RiboNucleic Acid ou cido Ribonucl ico 00000 TRNA RNA riboss mico RUP Rational Unified Process ou Processo Rational Unificado i SQL Structure Query Language ou Linguagem Estruturada de Consulta tRNA 00 Z RNA transportador _ UCB Universidade Cat lica de Bras lia 22 UML Unified Modeling Language ou Linguagem Unificada de Modelagem i UNB z Universidade de Bras lia 00 XML eXtended Markup Language ou Linguagem Extens vel de Marca es Xi RESUMO Considerada uma disciplina especial desde o in cio dos anos 80 a bioinform tica pode ser definida como uma modalidade que abrange todos os aspectos de aquisi o processamento armazenamento distribui o an lise e interpreta o da informa o biol gica Tudo ocorre numa estreita sinergia com o paradigma fundamental da biologia molecular a qual postula que a informa o gen tica est armazenada nas sequ ncias de DNA Ap s a iniciativa p blica do Projeto do Genoma Humano iniciad
80. GTGTCGCTTCTGCACAATCAGAGACTGTCTCATCTCTCCACT CAACGTGGAAGTTGCCTTGTGCCTAAACTGAATTGACAAATGCATTGTAACT ACAAATTTTATTTATTGTTATGGAACTGTGAGGTCTACATATAAAGGGAAAAG TTCATGTGGGAAGCTGGTGTACACTCAGCTGATGCCAGCATTGTTAAAGCTG TTCACAGAGCAGTGGCAACCATTGGCCCTTAGCATTCCCGGCATACCTGTTA GTGTCTTAAAAAGGAAGGGAGTCCTTTGTTGCCCTCTCCGACCTTCGCCATA TGAATAGTGATTTCCATGAAATAGGAAAAATATTACTTCGTATAGCATTTCTC TCT lt Hsp qseqg gt lt Hsp hseq gt 6GCAGAGACCGTCGGCCGTGAGGTGTTTGCAGCATATCACTCTG CTGTAATCAGTGTGTCGCTTCTGCACAATCAGAGACTGTCTCATCTCTCCACT CAACGTGGAAGTTGCCTTGTGCCTAAACTGAATTGACAAATGCATTGTAACT ACAAATTTTATTTATTGTTATGGAACTGTGAGGTCTACATATAAAGGGAAAAG TTCATGTGGGAAGCTGATGTACACTCAGCTGATGCCAGCATTGTTAAAGCTG TTCACAGAGCAGTGGCAACCATTGGCCCTTAGCATTCCCGGCATACCTGTTA GTGTCTTAAAAAGGAAGGGAGTCCTTTGTTGCCCTCTCCGACCTTCGCCATA TGAATAGTGATTTCCATGAAATAGGAAAAATATTACTTCGTATAGCATTTCTC TCT lt Hsp hseqg gt lt Hsp midline gt NI DRPUADADA DOADA DOADA DADA DOADA ADD DOADA DOADA DOADA AAA DORPUOADA DOADA DOADA DOADA DOADA AAA ADA DADA DADO DADA DADA DADA ADA DEP I lt F sp midline gt lt Hsp gt lt Hit hsps gt lt Hit gt lt Hit gt lt Hit num gt 2 lt Hit num gt lt Hit id gt 9i 194043 gb M97636 1 MUSHTHTRFB lt Hit id gt lt Hit def gt M musculus helix loop helix transcription factor sequence lt Hit def gt lt Hit accession gt M97636 lt Hit accession gt lt Hit len gt 4675 lt Hit len gt lt Hit hsps gt lt Hsp gt lt Hsp num gt 1 lt Hsp num gt lt Hsp bit score gt 779 559 lt Hsp bit scor
81. H dois anos a Celera uma corpora o especializada em biotecnologia sequenciou o genoma completo da Drosophila melanogaster algo em torno de 165 milh es de pares de bases em poucos meses o que atualmente pode ser executado em quest o de semanas E Heath e Ramakrishnan 2002 ainda citam os casos dos genomas do arroz e da planta Arabidopsis thaliana sequenciados recentemente e em poucos meses Um outro exemplo a iniciativa p blica do Projeto Genoma Humano iniciado em 1990 e com prazo previsto para ser completado em 2005 tinha sequenciado at 1998 cerca de apenas 3 do genoma Nos dois anos seguintes com a introdu o de novos sequenciadores capilares de DNA completou se o trabalho restante de gera o de sequ ncias O cons rcio p blico seguenciou 22 bilh es de bp e a CELERA cerca de 14 5 bilh es de bp Estimativas atuais indicam que a capacidade de sequenciamento do setor p blico dedicado apenas ao Projeto do Genoma Humano j atingiu em m dia 28 milh es de pares de bases por m s N o exagero afirmar que as novas tecnologias permitem hoje que um sequenciador fa a no intervalo de poucas horas o que grupos de sequenciadores faziam no in cio da d cada de 90 no per odo de um ano Pereira 2001 CELERA Empresa privada pertencente majoritariamente Applied Biosystem uma companhia que fabrica sequenciadores Tanto pelo volume quanto pela rapidez com que s o produzidas essas informa es sup
82. J Gapped BLAST and PSI BLAST a new generation of protein database search programs 1997 http www cs cornell edu Courses CS726 2001fa presentations niranjan2 ppt Site pesquisado em 12 03 2002 Ara jo 2002 Ara jo Alan Henriques de Thomas Malthus e a explos o demogr fica Economista analista militar e financeiro editor do site U s NAVY na NET http www alanhenriques1 hpg 1g com br artigoeconomia03 html Site pesquisado em 02 12 2002 Baxevanis e Ouellette 2001 Baxevanis Andreas D Ouellette B F Francis Bioinformatics A Pratical Guide to the Analysis of Genes and Proteins Wiley Interscience USA 2001 Bioinfo 326 2002 Universidade Municipal de Nova York CUNY Introduction to Bioinformatics and Genomics maio de 2002 Departamento de Biologia http www library csi cuny edu davis Bioinfo 326 lectures Site pesquisado em 25 11 2002 Bionavigator 2002 Bionavigator http www bionavigator com Site pesquisado em agosto de 2002 BLC 1999 Centro de Aprendizado de Biologia BLC Bioinformatics and Genomic Analysis janeiro de 1999 Universidade do Arizona USA http www blc arizona edu courses bioinformatics Site pesquisado em 01 03 2002 BLOCKS 2001 BLOCKS Blocks WWW Server mar o de 2002 http blocks fhcrc org blocks Site pesquisado em 25 03 2002 Bonato e Bonato 2001 Bonato Chris Bonato Cezar Biologia na Web Professora de Gen tic
83. ODELAGEM ORIENTADA A OBJETOS Booch et al 2000 A atividade de modelagem de um software pode ser analisada pelo enfoque tradicional ou pelo enfoque contempor neo Para o primeiro enfoque o desenvolvimento adota a perspectiva de um algoritmo e o principal bloco de constru o do software o procedimento ou fun o A aten o dos desenvolvedores fica voltada para quest es referentes ao controle e decomposi o de algoritmos maiores em algoritmos menores Com isso o sistema resultante pode ser inst vel e de dif cil manuten o para contemplar altera es de requisitos ou demanda de novas funcionalidades O enfoque contempor neo no entanto adota uma perspectiva orientada a objetos na qual o principal bloco de constru o de todos os sistemas de software o objeto ou a classe De maneira simplificada um objeto alguma coisa geralmente estruturada a partir do vocabul rio do espa o do problema ou do escopo da solu o e uma classe a descri o de um conjunto de objetos comuns Todos os objetos possuem uma identidade nica um estado com atributos associados e um comportamento com opera es ou m todos associados Essa perspectiva superior para a cria o de arquiteturas flex veis inclusive no caso de sistemas que poder o conter grandes bancos de dados ou v rios componentes computacionais E nesse contexto de mudan a do paradigma tradicional para o orientado a objetos que est inserida a Linguag
84. OM diagrama de classes dos servi os parametriza o e filtragem i 172 Figura 5 13 2 Sistemas Genoma e BLOOM diagrama de classes de resultado do BLAST comuns a ambos 173 Figura 0 1 Sistema Genoma diagrama de sequ ncia do cen rio Inicializa eeesseesseeeeeeeeeeeesssssssssssssssrrrrreeessssss 174 Figura 0 2 Sistema Genoma diagrama de sequ ncia do cen rio Resultados do BLAST 175 Figura 0 1 Sistema BLOOM diagrama de seq ncia do cen rio Visualizar alinhamento pairwise s 176 Figura 0 1 Sistema BLOOM diagrama de seq ncia do cen rio Construir alinhamento m ltiplo 177 Figura 0 1 Sistema BLOOM diagrama de sequ ncia do cen rio Predizer estrutura secund ria de prote na 178 Figura 0 2 Sistema BLOOM diagrama de sequ ncia do cen rio Derivar rvore filogen tica eseesseeeeeeeeeeeees 179 Figura 0 1 Um exemplo de resultado BLAST no formato XML sssssssseseessseeeessssssssssssssssrereessssssssssssseserereeeesssss 192 Figura 0 2 Sistemas Genoma e BLOOM diagrama de classes de controle comuns a ambos s 193 Figura 0 1 Sistema Genoma valida o do usu rio e entrada eeeeeerererrererereeeeeaaaaaaaananeraaeerereea 194 Figura 0 2 Sistema Genoma m dulo de Consulta Sele o da placa e rerreeereeeeeeeeeeeeeeeeerrree 194 Figura 0 3 Sis
85. PR REITORIA DE P S GRADUA O E PESQUISA MESTRADO EM GEST O DO CONHECIMENTO E DA TECNOLOGIA DA INFORMA O BLOOM BLAST Object Oriented Management uma solu o integrada para gerenciamento dos resultados do BLAST por meio de um paradigma orientado a objetos Leila de F tima Sousa Carvalho Bras lia DF 2002 ERRATA Leila de F tima Sousa Carvalho BLOOM BLAST Object Oriented Management uma solu o integrada para gerenciamento dos resultados do BLAST por meio de um paradigma orientado a objetos Orientadores DISSERTA O TESE APRESENTADA AO PROGRAMA DE P S GRADUA O STRICTO SENSU EM GEST O DO CONHECIMENTO E DA TECNOLOGIA DA INFORMA O DA UNIVERSIDADE CAT LICA DE BRAS LIA COMO REQUISITO PARCIAL PARA OBTEN O DO GRAU DE MESTRE EM GEST O DO CONHECIMENTO E DA TECNOLOGIA DA INFORMA O Prof Dr Marcos Mota do Carmo Costa e Prof Dr Georgios Joannis Pappas J nior Bras lia DF 2002 C331B Carvalho Leila de F tima Sousa BLOOM BLAST Object Oriented Management uma solu o integrada para gerenciamento dos resultados do BLAST por meio de um paradigma orientado a objetos Leila de F tima Sousa Carvalho Bras lia 2002 203 f il Orientadores Marcos Mota do Carmo Costa e Georgios Joannis Pappas J nior Disserta o mestrado Universidade Cat lica de Bras lia 2002 1 Biologia computacional bioinform tica 2 An lise gen mica 3 Biotecnologia I Costa Marco
86. Resultados do BLAST f Instn Lbuaio masaa Qicanobdao Resultados do BLAST TES CestefciontFrame ofre codllicieca cocFca oddam Mostradesaricao DidocHlasMew jUilErtra a Instanos CortroleFacionySener ShiConirdetnidal Cortroeinida Instanoe QuenebleOdllecionSener 176 Insine Bronse Qnid Figura 0 1 Sistema BLOOM diagrama de seq ncia do cen rio Visualizar alinhamento pairwise E 7 p Mstadores sa aede QrirdeOrtrdeBasMennp R Oeria ENN E senirderrica UilEmbrepadtjCentrerrida E CESeqendia oodPrejeto codElblicteca odaca oddone ra An edleclecirFacen adute reuring ara query cxProjeto R QeateAdin R Pres z setfigrrentaa q seligrrrentador set brizontaBavaue setoalwidh T setinidalRievdue EE geiveNidrMsibleHeacer gain bio adute reuring ara query cxProjeto 1 padn gt Meads DaN Catia Cilio o Cain E Cain M Cain a Sieciormumhit R Cladin I Catia g
87. Sistema Genoma BioFoco lt lt utility gt gt 2 BD pairwise XML BioFoco N do y V as Ad di Z Ed a gt lt lt utihty gt gt M dulo de anota o BioFoco J PT E pes Sistema BLOOM Aplicativo de alinhamento m ltiplo ClustalW y 4 lt lt utility gt gt o Aplicativo de estrutura 2 ria de proteina Ed p A z lt lt utilty gt gt lt lt utility gt gt Aplicativo de rvore filogen tica Editor de alinhamento m ltiplo JalView z ya Figura 5 7 1 Esquema das intera es do Sistema 151 5 8 APLICABILIDADE DE PADR ES Para garantir que o aplicativo possa ser efetivamente utilizado por um grande n mero de pesquisadores e que seja flex vel o bastante para se adaptar s diversas situa es dos projetos genomas alguns padr es ser o aplicados a b c d e f g h Software aberto o sistema dever seguir padr es de software aberto inicialmente para sistema operacional Linux servidor HTTP Apache e servidor de banco de dados PosgreSQL barateando os custos com licen as Portabilidade o programa deve ser execut vel em qualquer plataforma independente do tipo de m quina sistema operacional e servidor de banco de dados Interconectividade capacidade de acessar e distribuir dados atrav s da Internet Esta propriedade fundamental visto que os bancos de dados biol gicos s o muito volumosos o que dificulta a manuten o local
88. U SOPMA result for UNK 185240 Abstract Geourjon C amp Del age G SOPMA Significant improvement in protein secondary structure prediction by consensus prediction from multiple alignments Cabios 1995 11 681 684 View SOPMA in MPSA Mac UNIX About AnTheProt PC Download HELP LO z z0 40 50 El TO AETGLPTGTOTEVTOTIAESTOQEFGGESTIYDLNDIANADASDLMNAYDYLITGCEFTUNTGELQSDWESIY cegeeeecocecechhhhhahAhnhAhhAhetcocheehhhhhhochhhhAhhAnhheeceeecocecttccccchhhhh DOLOGvVINFOGERVAYTFGAGDOVGYADMNFODAMETLEERISSILGSDTYEYUETEGTO FNE SEAVRNNO YE hhhhhheccttrceeeceeccceccecchhhhhhhhhAhhhAAAhhtercceceecoecttoececchhhhcttceee LA TIDELDNOFOLTENEIKTUVSNLKSEFEL eeeccececccCehhhhhhhhhhhhhttte Sequence length 169 SOPMA Alpha helix Hh 2 is 42 60 310 helix Gg 0 is 0 00 Pi helix li 0 is 0 00 Beta bridge Bb 0 is 0 00 Extended strand Ee 29 is 17 16 Beta turn TO is 8 88 Figura 3 6 2 Exemplo de predi o de estrutura secund ria de prote na parte 1 2 Fonte http npsa pbil ibcp fr cgi bin npsa automat pl page NPSA npsa sopma html 114 O AEA E A a A Ch 1 Ha pl l l Sann Bat BAHH 888 4888 38H Parameters Window width Similarity threshold Number of states Figura 3 6 3 Exemplo de predi o de estrutura secund ria de prote na parte 2 2 Fonte http npsa pbil ibcp fr cgi bin npsa automat pl page NPSA npsa sopma html 3 7 DERIVA
89. a As cores seguem o padr o TUPAC Baseado em Hunter 1993 22 A jun o dos amino cidos para formar a sequ ncia prot ica denominada liga o pept dica Para que essa ponte seja formada o amino cido sofre transforma es perde dois tomos de hidrog nio e um de oxig nio uma mol cula de gua e a parte restante que integrada ao polipept ideo recebe o nome de res duo E esse conjunto de res duos que determina o n vel prim rio da estrutura de cada proteina Na natureza atualmente s o conhecidos 20 vinte amino cidos Tabela 3 1 1 os quais s o referenciados pela denomina o completa por um c digo de tr s letras ou mais comumente por apenas uma letra como segue 1 letra 3 letras bs BNN i Aa a Alanna ET OE ME M SS R O s p asp Acaoasp rico o 4 E Gu cidogut mico nm s F Pre Feniaanna s 6 cy cicina n ms sima o s 1 ne f isolucina 9 k is Usma o of c f reu iesma gt u m me meton 2 n asn Asparagna o o e eo Poma u a on cumma o s r mo nona o s se sm o a r mw moa o os v va vam gt o w m moo gt v w tom o Tabela 3 1 1 Os vinte amino cidos comumente encontrados nas prote nas Baseado em http www library csi cuny edu davis Bioinfo 326 lectures AA _Proteins AminoAcids htm 23 Embora cada um dos diferentes amino cid
90. a 5 4 1 Detalhamento ou senten a do problema 5 5 POSICIONAMENTO DO PRODUTO Para Institui es ou pesquisadores das reas de biologia bioinform tica e demais reas afins Desejam reduzir tempo e esfor o para executar as diversas ferramentas de apoio em bioinform tica E um aplicativo para execu o da ferramenta desejada e O Sistema BLOOM Rn am visualiza o gr fica do resultado Possibilita a integra o das diversas ferramentas de bioinform tica Que dispon veis na Internet fazendo com que os dados de sa da de uma sejam utilizados como entrada para a ferramenta a ser chamada em seguida De algumas solu es de acesso livre j dispon veis na Internet que Diferentemente executam com propriedade uma ou outra ferramenta mas n o se disp em a uma integra o do porte previsto neste trabalho RE A Ser de acesso livre e c digo aberto A implementa o ocorrer p conforme a disponibilidade de programadores da Rede Biofoco Tabela 5 5 1 Posicionamento do produto 146 5 6 DESCRI O DA EQUIPE CLIENTE E DOS USU RIOS Equipe de pesquisadores do S o Mestres e Doutores nas Definir o escopo do Laborat rio de Bioinform tica reas de biologia e Sistema da Embrapa Recursos bioinform tica lotados no Aprovar os requisitos Gen ticos Laborat rio dessa unidade da levantados e os Embrapa modelos gerados Acompanhar O andamento do projeto Equipe de pesquisadores do S o Mestres e Dou
91. a a ferramenta O usu rio deve aguardar at o t rmino da transa o f Se o pesquisador escolheu mostrar resultado na tela o Sistema automaticamente chamar o Editor de alinhamento m ltiplo o qual permitir ent o que o usu rio interaja graficamente com os dados obtidos 13 Se desejar executar outro aplicativo em seguida a partir da tela atual um subconjunto de sequ ncias deve ser selecionado clicando diretamente no hit e em seguida no bot o Adicionar 14 Para executar o pr ximo aplicativo desejado seleciona um item dentre aqueles constantes na lista de funcionalidades por exemplo deriva o de rvore filogen tica etc 164 15 Se n o desejar prosseguir basta clicar no bot o Retornar para retornar tela anterior que a do alinhamento pairwise d Fluxo alternativo de eventos 1a O pesquisador pode opcionalmente expandir o subconjunto de sequ ncias j selecionadas agregando outras externas Basta clicar no bot o Agregar sequ ncias informar cabe alho e escrever ou colar a sequ ncia na segunda rea de texto 3a O pesquisador clica no bot o Par metros e pode alterar os par metros espec ficos de execu o da ferramenta da O sistema n o prossegue e emite um alerta de que o usu rio se esqueceu de selecionar o subconjunto de sequ ncias e P s condi es 1 Se o pesquisador optou por salvar o resultado em arquivo ou no banco de dados essa transa o deve se
92. a arquitetura elabora o do plano de desenvolvimento de software detalhamento de alguns dos casos de uso mais significativos e planejamento da fase de elabora o b Elabora o ou Elaboration a segunda fase do processo Para este trabalho de Disserta o foram conseguidos os artefatos de defini o de uma arquitetura est vel detalhamento da maior parte dos casos de uso e apresenta o de estimativas mais precisas para o projeto c Constru o ou Construction a terceira fase do processo Para este trabalho est o sendo conseguidos os artefatos de continua o do d 127 detalhamento dos demais casos de uso e implementa o dos casos de uso do Sistema Transi o ou Transition a quarta fase do processo em que o software chega s m os da comunidade de usu rios Para este trabalho espera se que sejam obtidos os artefatos de configura o do ambiente instala o teste e homologa o do Sistema em ambiente de produ o Os nove fluxos de trabalho encontram se subdivididos em dois grupos a b Fluxos de trabalho do processo Modelagem do neg cio ou business modeling descreve a estrutura e a din mica da empresa Para o Sistema desta Disserta o este fluxo de trabalho est sendo executado conforme o Plano de Desenvolvimento Requisitos ou requirements descreve o m todo baseado em casos de usos para identificar requisitos Para o Sistema desta Disserta o este fluxo d
93. a e professor de F sica da UFPB Para ba Brasil http www biologianaweb com Site pesquisado em 03 10 2001 Booch et al 2000 Grady Booch James Rumbaugh e Ivar Jacobson UML Guia do Usu rio Rio de Janeiro Campus 2000 Brodkin 2001 Brodkn Sam Use XML data binding to do your laundry http www javaworld com javaworld jw 12 2001 7w 1228 jaxb html Site pesquisado em 03 06 2002 Cooper 2002 Cooper James W The Design Patterns Java Companion http www patterndepot com put 8 JavaPatterns htm Site pesquisado em 25 06 2002 Craven 2002 Craven Mark Heuristic Methods for Sequence Database Searching fevereiro de 2002 Email craven mbiostat wisc edu http www biostat wisc edu craven 776 lecture4 pdf Site pesquisado em 05 04 2002 Developers 2001 ASPECTOS DO DESENVOLVIMENTO MULTIPLATAFORMA Publicado originalmente na Developers Magazine www developers com br n mero 59 julho 2001 pg 18 20 http www geocities com acfconsult artigoS htm Site pesquisado em 25 06 2002 186 Dipperstein 2000 Dippersten Michael DNA Sequence Database outubro de 2000 http www cs ucsb edu mdipper dna DN Apaper html Site pesquisado em 25 03 2002 FAPESP 1999 Pesquisa FAPESP Funda o de Amparo Pesquisa do Estado de S o Paulo Projeto Genoma outubro de 1999 http www fapesp br Site pesquisado em 20 11 2002 Ferlanti et al 1999 Ferlanti Erik S Rya
94. acionais dado em forma logar tmica ser o escolhido como base para a reconstru o da rvore Tanto para MP quanto para MV existem dois tipos de algoritmo de busca da melhor rvore a busca exaustiva em que todas as possibilidades de topologias s o verificadas e b busca heur stica em que apenas um subconjunto de rvores probabilisticamente mais prov veis examinado Essa ltima em termos pr ticos reduz sensivelmente o tempo de processamento computacional que em alguns casos dependendo do n mero de sequ ncias comparadas pode durar dias e at meses 121 Por meio de uma consulta internet foram detectados 194 pacotes de an lise filogen tica e 16 servidores de livre acesso Os softwares podem ser consultados e acessados pelo m todo empregado pelo sistema operacional no qual s o executados pelos tipos de dados que analisam etc Alguns dos principais pacotes s o PHYLIP PAUP MEGA TREECON ii e GeneTree iii b xliii Mais detalhes em http evolution genetics washington edu phylip software html xiv PHYLIP http evolution genetics washington edu phylip html dv PAUP http paup csit fsu edu index html a MEGA http Awww megasoftware net xvi TREECON http rrna uia ac be dcse help treecon html xlviii GeneTree http taxonomy zoology gla ac uk rod genetree genetree html 122 4 METODOLOGIA Dentre as metodologias utilizadas nesta Disserta o destacam se 4 1 M
95. ado O sistema executa o aplicativo apropriado N o mostrar na tela Mostrar na tela Visualizar apresenta o gr fica do resultado Filtrar resultado Clicar Retornar Figura 5 11 5 Diagrama de Atividades Predizer estrutura secund ria de proteina IV Derivar rvore filogen tica a Breve descri o a partir da sele o de um subconjunto das sequ ncias resultantes do alinhamento multiplo este caso de uso possibilita ao Pesquisador executar a ferramenta que deriva a rvore filogen tica correspondente ao subconjunto selecionado Em seguida pode se visualizar e manipular graficamente todo o conjunto resultante 168 b Pr condi es 1 Ter selecionado um subconjunto das sequ ncias resultantes do alinhamento m ltiplo c Fluxo principal de eventos d 1 Este caso de uso se inicia quando o pesquisador seleciona um aplicativo para executar a atividade dentre aqueles constantes na lista de ferramentas apropriadas Clica no bot o Executar O Sistema utiliza os par metros pr determinados default de cada ferramenta Feito isso o Pesquisador atribui uma descri o breve e um coment rio para o novo registro Determina o destino do resultado mostrar na tela gravar no caminho e arquivo especificados gravar diretamente no BD pairwise XML ou todas as op es Clica no bot o OK e o Sistema executa a ferramenta O usu rio deve aguardar at o t rmino da tran
96. ados armazenados de alinhamento pairwise de uma sequ ncia obtidos do BLAST inicialmente no formato XML e normalizados para tabelas relacionais Al m disso a partir desses dados que ser o realizadas as consultas baseadas na wish list do pesquisador Somente o Pesquisador cadastrado pode ter acesso a este 156 banco de dados Consulte mais informa es no item Intera es ou perspectivas do produto f M dulo de anota o seu papel possibilitar a obten o dos dados de anota o de cada sequ ncia apresentada no resultado do alinhamento pairwise Consulte mais informa es no item Intera es ou perspectivas do produto g Aplicativo de alinhamento m ltiplo seu papel possibilitar a constru o do alinhamento m ltiplo entre as sequ ncias escolhidas pelo Pesquisador quando da visualiza o gr fica do resultado do alinhamento pairwise Consulte mais informa es no item Intera es ou perspectivas do produto h Editor de alinhamento m ltiplo seu papel possibilitar a manipula o gr fica do resultado do alinhamento m ltiplo Consulte mais informa es no item Intera es ou perspectivas do produto i Aplicativo de predi o de estrutura secund ria de proteina seu papel possibilitar a predi o da estrutura secund ria da prote na correspondente sequ ncia consenso daquelas escolhidas pelo Pesquisador quando da visualiza o gr fica do resultado do alinhamento m ltiplo Consult
97. alinhado para produzir um escore estatisticamente significante c a escala isto a quantidade de informa o provida por unidade de escore 3 3 7 PAM O modelo PAM de evolu o de prote nas tamb m chamado de MDM Mutation Data Matrices ou Matrizes de Dados de Muta o ou Matrizes de Dayhoff Foi desenvolvido em 1978 por um projeto pioneiro da Funda o Nacional de Pesquisa Biom dica dos Estados Unidos NBRF e liderado pela pesquisadora Margaret Oakley Dayhoff Margaret e sua equipe fizeram um estudo abrangente das frequ ncias nas quais os amino cidos se substituem uns pelos outros durante a evolu o baseando se em tr s hip teses a os eventos mutacionais s o independentes do contexto b um acontecimento mutacional numa certa posi o independente dos eventos mutacionais 67 anteriores que tiveram lugar nessa posi o c a probabilidade de substitui o de X por Y a mesma de Y por X PSC 1999 Esses estudos envolveram alinhamentos globais de 1572 prote nas de 71 fam lias relacionadas com pelo menos 85 de similaridade e em seguida a constru o de rvores filog nicas para cada uma dessas fam lias Cada rvore foi examinada pelas substitui es encontradas em cada galho ramo par de sequ ncia Essas frequ ncias relativas foram colocadas numa matriz 20 x 20 representando todas as poss veis combina es de substitui es entre os amino cidos A matriz foi ent o normalizada para valores qu
98. alinhamento dos blocos provia um conjunto de poss veis substitui es de amino cidos e consideraram se as hip teses a os eventos mutacionais s o independentes do contexto b um acontecimento mutacional numa certa posi o independente dos eventos mutacionais anteriores que tiveram lugar nessa posi o c a probabilidade de substitui o de X por Y a mesma que a de uma mudan a reversa de Y resulte X d substitui es mais comuns devem representar uma rela o mais pr xima entre dois amino cidos de proteinas relacionadas e por isso recebem valores mais favor veis no alinhamento e e contrariamente substitui es raras s o menos favorecidas Este procedimento no entanto poderia levar a uma representa o excessiva das substitui es que ocorrem na maioria dos membros de fam lias de prote nas relacionadas BLC 1999 Para reduzir essa interfer ncia dos membros mais relacionados as sequ ncias dessas proteinas foram agrupadas em uma nica sequ ncia antes de atribuir valores aos alinhamentos das sequ ncias dos blocos Padr es com 62 de identidade foram novamente reagrupados para formar uma matriz de substitui o chamada BLOSUMO2 Tabela 3 3 13 e aquelas com 80 de identidade formaram uma outra matriz chamada BLOSUMB8O e assim por diante Ou seja Baxevanis e Ouellette 2001 do mesmo modo que acontece no modelo PAM existe uma s rie numerada de matrizes BLOSUM mas o n mero neste caso refere se ao n
99. alinhamento m ltiplo entre essas Predizer estrutura secund ria de prote na a partir da sele o de um subconjunto das sequ ncias resultantes do alinhamento m ltiplo este caso de uso possibilita ao Pesquisador executar a ferramenta que prediz e apresenta graficamente a estrutura secund ria da proteina consenso correspondente a cada uma das sequ ncias de amino cidos escolhidas Derivar rvore filogen tica a partir da sele o de um subconjunto das sequ ncias resultantes do alinhamento multiplo este caso de uso possibilita ao Pesquisador derivar e visualizar graficamente a rvore filogen tica correspondente Manter wish list este caso de uso permite ao pesquisador incluir alterar excluir e consultar os assuntos de seu interesse a partir do registros mantidos nessa lista Manter tarefa este caso de uso permite ao pesquisador incluir alterar excluir e consultar as tarefas a serem executadas automaticamente pelo Sistema Na Figura 5 11 1 a seguir apresentado o diagrama dos casos de usos do ator Pesquisador 158 Eae l N Incluir tarefa f lt lt include gt gt E di nm 2 a sn Se BD pairwise XML Ea lt Sextend gt gt Manter tarefa x l a x pe a OONA pun E ea a Sistema Genoma OSa a q Visualizar alinhamento pairwise gt Manter wish list S D a im a e Ea M dulo de anota o Pesquisador un o PE a its E C Predizer estrutura 2 ria de prote na e C Derivar rvore filog
100. alinhe com outro A na posi o 9 de qualquer das Sn s enquanto o A de S1 na posi o 119 alinhado com diversas letras em outras sequ ncias Com escores de posi es espec ficas o primeiro alinhamento pode gerar um alto valor enquanto o segundo alinhamento do A na posi o 119 mesmo sendo com outro A geraria um valor n o muito significativo e compar vel a alinh lo com qualquer outra letra Repetidas vezes o banco de dados ser rastreado usando essa matriz adaptada para os escores dos alinhamentos O processo pode ser repetido usando sequ ncias similares descobertas pelo passo 2 no banco de dados Bioinfo 326 2002 IlI Compara o entre BLAST e FASTA As escolhas de uma matriz de escore de W tamanho da palavra e de T escore da palavra em rela o a C escore do segmento s o cr ticas para a efici ncia e efetividade do BLAST Ao se diminuir T reduz se a chance de que o escore de um par de segmentos m ximo acima de um valor C seja perdido mas aumenta o tempo de uso de m quina Essas escolhas vem sendo intensivamente estudadas de modo emp rico e por isso OS valores defaults t m sofrido mudan as ao longo do tempo para se ajustar a cada nova realidade atingida Atualmente o valor recomendado de W tem sido na faixa de 3a 5 para res duos de amino cidos e 12 para nucleot deos Gusfield 1997 Inicialmente relatou se que o BLAST executaria mais rapidamente que o FASTA e ainda muitas vezes mais r
101. alizados para fortalecer ou refutar a hip tese de ancestral comum Por outro lado se a similaridade est muito pr xima ou igual aquela que esperada por acaso prov vel que as sequ ncias n o sejam mesmo relacionadas Entretanto em biologia n o h regras sem exce es e h casos de proteinas hom logas sem qualquer tra o de similaridade Meidanis e Setubal 1997 51 3 3 3 A import ncia evolutiva dos gaps e suas fun es de penalidade At o momento as id ias centrais usadas para medir o valor de um alinhamento sua similaridade foram identidades diverg ncias e espa os No entanto j o momento de se mencionar um outro conceito lacuna ou gap Meidanis e Setubal 1997 Uma lacuna pode ser definida como sendo um conjunto m ximo e consecutivo de k gt 1 espa os que ocorrem numa sequ ncia quando se tenta alinh la a outra ou a outras Gusfield 1997 As lacunas ajudam a criar alinhamentos que melhor se conformam aos modelos biol gicos e se ajustam bem s buscas de padr es Um exemplo dessa defini o mostrado na Tabela 3 3 9 abaixo a qual cont m duas lacunas e dois espa os isolados O a a DR a a a a e ne uaaaanannnnaneannnnnnnnnnnnn S2 C G A C G C A T C Tabela 3 3 9 Um exemplo de alinhamento pairwise mostrando duas lacunas e dois espa os isolados geralmente aceito que uma lacuna com k espa os seja mais prov vel que a mera ocorr ncia de k espa os is
102. almente relacionada prote na que ele codifica Vide Pappas 2002 199 3 Anota o uma combina o de coment rios notas refer ncias bibliogr ficas e cita es em formato livre ou utilizando um vocabul rio controlado que juntos descrevem toda a informa o experimental e inferida sobre um gene ou proteina Anota es podem ser aplicadas para descri o de outros sistemas biol gicos Vide http www Jibrary csi cuny edu 7 Edavis Bioinfo 326 bioinfo glossary html M dulo de Anota o um sistema que est sendo desenvolvido pelo colega Andr Barreto da Universidade Cat lica de Bras lia como projeto final do curso latu sensu em Sistemas Orientados a Objetos do ano de 2002 O objetivo capturar os dados de anota o de uma determinada sequ ncia gt Formato de seqgii ncia simplesmente a maneira que uma segi ncia de amino cido ou de DNA escrita e gravada em um arquivo de computador Diferentes programas esperam diferentes formatos Por 1sso para se obter o resultado esperado necess rio conhecer os diversos formatos e sua estrutura b sica Segundo a literatura os principais formatos de sequ ncias s o ClustalW Codata EMBL GCG MSF GDE Genebank Fasta Pearson NBRF PIR Phylip Swiss Prot Raw Staden e RSF Vide http www molbiol ox ac uk help sequenceformats htm e http www ebi ac uk help formats frame html Alinhamento pairwise tipo de alinhamento que envolve apenas um par d
103. am lias pois al m da similiaridade muitas vezes tamb m compartilham atributos funcionais e s o derivados de um ancestral comum Gusfield 1997 Feng D F Johnson M S and Doolittle R F 1985 Aligning amino acid sequences comparison of commonly used methods xi Gonnet G H Cohen M A and Brenner S A 1992 Exhaustive matching of the entire protein sequence database i Jones D T Taylor W R and Thornton J M 1992 The rapid generation of mutation data matrices from protein sequences 2n Henikoff S and Henikoff J G 1992 Amino acid substitution matrices from protein blocks 71 aparente ao se estudarem fam lias de sequ ncias de prote nas que algumas regi es permanecem mais bem conservadas que outras durante a evolu o Essas regi es s o geralmente importantes para a fun o de uma prote na e para a manuten o de sua estrutura tridimensional Ao se analisarem as propriedades constantes e vari veis de tais grupos de sequ ncias similares poss vel derivar um padr o biologicamente significativo uma impress o digital para uma fam lia ou um dom nio de prote na o qual distingue seus membros de outras proteinas n o relacionadas Esse padr o tamb m pode ser usado para designar uma nova sequ ncia a uma fam lia espec fica de proteinas e assim formular hip teses sobre sua fun o PROSITE 2002 Um padr o PROSITE pode ser representado por uma assinatura ou por um perfil derivado
104. amento gen tico das esp cies e combate a pragas como o caso do carrapato b 9 esfor os para encontrar o aplicativo mais adequado converter sua sequ ncia ao formato de entrada solicitado que pode ser diferente para cada aplicativo Isso desestimula o uso de ferramentas variadas Prop e se ent o integra o do Sistema BLOOM com esses utilit rios para oferecer ao pesquisador v rias op es de ferramentas que possam realizar uma mesma an lise empregando um m nimo de esfor o e tempo Obtido o resultado de uma certa an lise a necessidade fazer com que esse resultado possa ser submetido a uma pr xima an lise com a qual possua correla o por exemplo resultado de alinhamento m ltiplo ser submetido em seguida para deriva o de rvore filogen tica O pesquisador enfrenta mais dificuldades abrir uma nova janela no navegador procurar novamente uma ferramenta adequada converter para o formato de entrada apropriado e submenter os dados an lise E se desejar testar v rias ferramentas para uma mesma an lise o desgaste se multiplicar Ao final o pesquisador ter aberto v rias janelas independentes cada uma contendo resultado de uma an lise Ser bastante confuso reunir as informa es para um entendimento completo dos resultados ou para apresent las em alguma publica o cient fica Por isso a proposta modelar uma solu o que fa a com que a sa da resultado de uma an lise possa trafeg
105. anter wish list Detalhamento do caso de uso Realizar consulta c7 04 02 04 04 04 04 Paseada na wish list i An lise projeto implementa o e testes do caso de uso Realizar consulta baseada na wish list An lise dos resultados da itera o Planejamento da fase de Transi o Configura o do ambiente de produ o Transi o T1 05 04 04 30 04 04 Instala o e testes do Sistema em ambiente de produ o Homologa o do Sistema Tabela 5 12 1 Distribui o das itera es 172 5 13 VIS O DE PROJETO 5 13 1 Diagramas de classes GerenciadorDeFiltragem GenomaPrincipal Anota o GenomaControle FerramentaFormato BlastOutput Formato x k Esquema string Lona BotaoDeLink TEN ER None string Nome string Tipo string Descricao string FerramentaBlastOutput IDFormato string IDBotaoDeLink string Caminho string Categoria IDCategoria string Nome undefined Descricao string a FacadeFormato ii x Ferramenta CategoriaParametroFi
106. ar transparentemente como entrada para a pr xima an lise estando todas as an lises integradas em um mesmo sistema Os resultados poder o ser analisados graficamente e obtidos tamb m por meio de relat rios e inicialmente de arquivo em formato texto A partir desses prop sitos iniciou se a pesquisa por ferramentas j desenvolvidas ou bibliotecas de objetos reutiliz veis que atendessem a demanda evitando redund ncia de esfor os No entanto a busca n o alcan ou o sucesso esperado quanto a ferramentas por dois motivos a as mais completas est o dispon veis apenas comercialmente e seu custo pode se tornar invi vel para a Biofoco como o caso do Finch Suite e BioNavigator e b as de uso gratuito n o atendem plenamente aos requisitos e n o permitem a inser o de novos m dulos que o caso do WebBlast Por m quanto s bibliotecas de componentes reutiliz veis o resultado foi mais proveitoso e optou se pelo 10 uso do pacote BioJava pois seus componentes de visualiza o de alinhamento de sequ ncias se mostraram bastante interativos e ricos em funcionalidades Quanto a outros aplicativos em estudo embora nem todos os componentes sejam candidatos a reuso nesta primeira fase do Sistema BLOOM o que se pretende um ganho na avalia o das id ias empregadas a saber a BioWidgets toolkit cole o de componentes JavaBeans para desenvolvimento de aplica es gen micas H componentes para visuali
107. ara o dom nio do problema d Camada de Servi os respons vel por encapsular o conjunto de classes respons veis pela implementa o dos mecanismos de persist ncia e comunica o com os sistemas externos Apresenta o V Aplica o V Dom nio do Problema V Servi os Figura 5 10 1 Organiza o do Sistema em camadas 154 5 10 2 Mecanismo de persist ncia Com o intuito de favorecer a flexibilidade as classes respons veis pelo mecanismo de persist ncia de uma classe de entidade devem estar encapsuladas em subsistemas Utilizando a linguagem Java o design pattern MVC e o servi o POS de persist ncia da arquitetura CORBA resultar o seguinte modelo Figura 5 10 2 QueryableCollectionFactoryServer 1M f k k a QueryableCollectionServer Figura 5 10 2 Diagrama de classes do mecanismo de persist ncia do Sistema 5 10 3 Comunica o com sistemas externos Da mesma forma que o mecanismo de persist ncia as classes respons veis pela comunica o com sistemas externos devem estar encapsuladas em subsistemas Como esses sistemas utilizam diferentes protocolos de comunica o a defini o das classes ser feita utilizando o design pattern Fa ade para encapsular a complexidade inerente a essa tarefa 155 5 11 VIS O
108. ares de bases Por exemplo se uma exclus o tem como resultado a remo o de G da sequ ncia de mRNA GAACCUA os dois primeiros c dons mudam de GAA e CCU para AAC and CUA alterando assim a sequ ncia de amino cidos especificadas pelo mRNA Seletividade a habilidade de um m todo em evitar aquelas seq ncias n o relacionadas mesmo que apresentem altos escores de similaridade 8 REPBASE segundo Geospiza Inc um banco de dados de elementos repetitivos de sequ ncias de DNA encontrados em uma variedade de organismos eucari ticos incluindo mam feros peixes insetos nemat ides e plantas F EST ou Expressed Sequence Tags em ingl s segundo http www library csi cuny edu 7Edavis Bioinfo 326 biomfo _glossary html e significa uma pequena seq ncia de um gene expresso que pode ser amplificado por PCR ESTs atuam como marcadores f sicos para clonagem e seq enciamento completo dos cDNAs de genes expressos Tipicamente identificados purificando mRNAs convertendo para cDNAs e ent o seq enciando uma por o dos cDNAs E STS ou Sequence Tagged Site em ingl s segundo http www Jibrary csi cuny edu Y 7Edavis Biomnfo _326 bioinfo _glossary html s significa uma nica sequ ncia de localiza o cromoss mica conhecida que pode ser amplificada por PCR STSs atuam como marcadores f sicos para mapeamento gen mico e clonagem li GSS ou Genome Survey Sequence em ingl s segundo http www genomicglossaries
109. as conforme Figura 3 3 21 Esse dispositivo possui estados e transi es e opera como uma m quina Ele inicia em um estado inicial fixo e para cada caracter no banco de dados uma transi o feita para um outro estado Dependendo do estado e da transi o uma palavra da lista reconhecida O aut mato constru do somente uma vez usando a lista de palavras de alto escore como entrada e um modo compacto de armazenar todas essas palavras Essa busca r pida pois requer apenas uma transi o por caracter Figura 3 3 21 BLAST Aut mato finito determin stico para reconhecer a palavras vizinhas QL QM e ZL usado o paradigma Mealy accept on transitions para economizar tempo e espa o Baseada em Craven 2002 93 2 Estender as sementes de cada sequ ncia Cada palavra estendida tanto para a esquerda quanto para a direita sem introduzir lacunas o que mostrado na Figura 3 3 22 a seguir Em ess ncia a palavra coincidente equivalente a um caminho curto na diagonal de um grafo de alinhamento e feita uma tentativa para estender o grafo em ambas as dire es para assim aumentar o escore Quando uma regi o que degrada o escore atingida a busca abandonada Este passo tamb m muito r pido porque busca apenas um n no grafo e considera apenas arcos diagonais Pares de segmentos de escores n o suficientemente altos s o descartados Bioinfo 326 2002 O LN A Seqii ncia de busca
110. as costumam conter em m dia 300 res duos de amino cidos Meidanis e Setubal 1997 Como preconiza um ad gio da Biologia Molecular a sequ ncia de res duos de amino cidos que determina a estrutura e esta por sua vez determina a fun o atividade biol gica da prote na ou melhor as cadeias inicialmente lineares enovelam se para gerar a conforma o caracter stica de cada proteina Esse formato juntamente com as 25 propriedades qu micas de cada um dos res duos de amino cios constituintes importante para a fun o da cadeia resultante Subdivididas em prote nas globulares e fibrosas podem desempenhar dentre outras as seguintes fun es de Bioinfo 326 2002 a Cat lise enzim tica por meio de prote nas chamadas enzimas as rea es qu micas que ocorrem nas c lulas s o aceleradas Muitas dessas rea es se n o acompanhadas por enzimas poderiam levar grande tempo para finalizar ou mesmo nem acontecer b Transporte e armazenamento as prote nas ligam se a outras mol culas para realizar essas atividades por exemplo a mioglobina liga se ao oxig nio nas c lulas dos m sculos esquel ticos e card acos a hemoglobina transporta O e CO nas c lulas sangu neas e a ferritina faz a media o de ferro no f gado c Constru o de tecidos realizada pelas cnamadas prote nas estruturais que incluem a actina e a tubulina d Suporte e movimentos por exemplo suporte ao fortalecime
111. as especifica es da Sun para permitir maior interoperabilidade O sistema dever ser disponibilizado em portugu s ingl s e espanhol 5 9 LISTA DE RISCOS Risco Impacto Situa o Materializa o Plano de conting ncia Prazo de Alto desenvolvimento Pendente Pendente Utiliza o do SGBD PosgreSQL Alto Integra o com aplicativos externos inclusive envolvendo o emprego do formato XML Alto Emprego do formato XML para persist ncia de dados M dio As principais funcionalidades do Sistema BLOOM precisam estar em produ o no prazo estabelecido pelas tr s unidades participantes Quando o sistema for posto em produ o existe a possibilidade de que o SGBD sugerido para o desenvolvimento n o suporte os requisitos de volume de transa o e desempenho O Sistema dever suportar a integra o com diferentes sistemas de bioinform tica dispon veis na Internet Como a equipe de desenvolvimento n o possui experi ncia com esse tipo de integra o pode ser que esta necessidade consuma um tempo razo vel de desenvolvimento Pretende se que praticamente todas as tabelas de parametriza o do Sistema sejam persistidas utilizando XML para ganhar performance Tabela 5 9 1 Lista de riscos Ap s a fase de elabora o quando houver mais subs dios para a realiza o de estimativas dever ser feita uma an lise sobre a viabilidade dos custos e praz
112. as interessantes nessa rea inclusive na UNB Universidade de Bras lia em parceria com a UCB Universidade Cat lica de Bras lia Ao contr rio utilizando a ferramenta de minera o de dados uma das maneiras de conceituar o BLAST pretende se que os resultados obtidos sejam tratados de maneira mais flex vel do que v m fazendo os atuais produtos de livre acesso Para esse tipo de minera o de dados de sequ ncias al m do BLAST tamb m h o FASTA ou FAST Fast Alignment Pearson 2002 Ambos apresentam alto grau de confiabilidade dos resultados No entanto a escolha recaiu sobre o primeiro devido ao seu largo uso e aceita o pela comunidade cient fica de bioinform tica Realmente desde a sua publica o em 1990 o BLAST um dos mais populares programas de pesquisa de semelhan as em bases de dados Rocha 2000 Outra vantagem que enquanto o FASTA procura coincid ncias estritas de sequ ncias o BLAST procura coincid ncias de sequ ncias que se assemelham n o estritamente id nticas A no o de semelhan a incorporada no algoritmo atrav s da utiliza o de uma matriz de escores por exemplo a matriz BLOSUMO 2 2 2 1 Objetivo geral Desenvolver um ambiente integrado para visualiza o e manipula o gr fica do resultado de an lises gen micas utilizando tecnologias atuais de orienta o a objetos como Java CORBA XML dentre outras Pretende se tamb m que a ferramenta seja parametrizada am
113. as transforma es que est o subdivididas em tr s categorias 38 Inser o a inclus o de um ou mais caracteres na sequ ncia Exclus o significa a retirada de um ou mais caracteres da sequ ncia Substitui o a troca de um determinado caracter da sequ ncia por outro do mesmo alfabeto Quanto ao DNA observam se dois tipos de substitui o a transi o que a troca de uma base purina por outra exemplo A3G ou de uma pirimidina por outra exemplo T5C e b transvers o que a troca de uma base purina por uma pirimidina exemplo A5C e vice versa exemplo T56 Inser es e exclus es s o o inverso uma da outra dadas duas sequ ncias se a inser o de um caracter ou mais em uma delas resulta a outra ent o equivalentemente a exclus o desses caracteres da sequ ncia resultante produzir a primeira Devido a essa reciprocidade essas duas opera es s o usualmente chamadas de indel insertion e deletion Esp cie ancestral exclus o inser o exclus o substitui o inser o exclus o Esp cie 1 Esp cie 2 Figura 3 2 2 Esquema simplificado de poss vel evolu o de duas esp cies a partir de um ancestral comum Como visto na Figura 3 2 2 acima pode se dizer que a maioria das sequ ncias s o similares a outras e se conhecemos a fun o de uma podemos transferir essa informa o para outras sequ ncias relacionadas Mais especificamente a similaridade ou ide
114. ativo de cada funcionalidade do Sistema d Diagrama de classes mostra um conjunto de classes interfaces e colabora es e seus relacionamentos Neste trabalho foram utilizados v rios diagramas de classes para fazer a modelagem da vis o est tica do Sistema pois oferecem principalmente suporte para os requisitos funcionais os servi os a serem fornecidos aos pesquisadores os usu rios finais Prestaram se a auxiliar na determina o do dom nio e seu vocabul rio suas abstra es e responsabilidades na modelagem das colabora es simples entre as classes de interface com o usu rio de controle e persistentes e em muitos casos na modelagem do esquema l gico das classes persistentes banco de dados 4 2 RUP Um processo um conjunto de passos parcialmente ordenados com a inten o de atingir uma meta Na engenharia de software sua meta entregar de maneira eficiente e previs vel um produto de software capaz de atender s necessidades de seu neg cio Booch et al 2000 125 A UML amplamente independente de processo significando que poss vel utiliz la com diferentes processos de engenharia de software O RUP Rational Unified Process ou Processo Rational Unificado um desses processos que se alinha aos prop sitos da UML o que resultou na sua escolha para a realiza o deste trabalho Al m disso foi poss vel adequ lo estrat gia da Disserta o e planejar a continuidade do desenvolvim
115. ber qual a outra apropriada para usar em tal compara o e c Meidanis e Setubal 1997 a complexidade quadr tica de tempo e espa o desses m todos f los inadequados para largas buscas em bancos de dados Para contornar esses problemas uma solu o seria empregar computadores paralelos e outros equipamentos especializados para continuar utilizando os j existentes algoritmos rigorosos No entanto o que est mais ao alcance s o computadores de prop sito geral e por isso necess rio recorrer a m todos baseados em heur sticas os 78 quais fazem uso de aproxima es para significativamente acelerar as compara es de sequ ncias embora n o garantam que as melhores identidades sejam encontradas e ainda apresentem um pequeno risco de que alinhamentos de altos escores sejam perdidos Baxevanis e Ouellette 2001 Em geral esses m todos dificultam o estabelecimento da complexidade te rica de espa o e tempo mas apesar disso t m se mostrado ferramentas muito importantes Meidanis e Setubal 1997 Um m todo heur stico baseado na estrat gia de particionamento de uma sequ ncia em peda os menores de caracteres consecutivos as chamadas palavras M todos baseados em palavras foram introduzidos no in cio da d cada de 1980 e s o usados na pr tica por todos os programas populares de busca atuais A id ia b sica que um alinhamento representando um relacionamento verdadeiro entre duas sequ ncias conter
116. biol gicos Isso inclui objetos para manipula o de sequ ncias file parsers interoperabilidade CORBA DAS acesso a ACeDB programa o din mica rotinas estat sticas simples etc Y BioWidgets vide http Awww cbil upenn edu bioWidgets index html BlastView vide http Awww cbil upenn edu bioWidgets AnnotView vide http www cbil upenn edu bio Widgets annotViewDemo index html JalView vide http www hgmp mrc ac uk embnet news vol5 4 embnet body jalview html ou http www es embnet org Doc jalview help html 2 ClustalW vide http www ebi ac uk clustalw X Jpred vide http www compbio dundee ac uk www Jpred 11 pesquisadores Algumas ferramentas tamb m o integram em sua plataforma por exemplo o BioNavigator Foram detectadas as mesmas vantagens assinaladas para o BlastView No entanto este editor apresenta defici ncia tecnol gica quanto aos recursos da linguagem Java que atualmente j se encontra na vers o 1 4 da plataforma Java2 na qual foram corrigidos alguns problemas da vers o inicial e alterou se completamente o pacote de interface gr fica para que fossem eliminados os componentes pesados heavyweight e dependentes do sistema operacional c Neomorphic Genome Software Development Kit Neomorphic Genome SDK ou NGSDKY desenvolvido por Neomorphic Software Inc da Calif rnia uma cole o de componentes Java vers o 1 1 para visualiza o de mapas lineares f sico
117. bjeto Query Query define quatro opera es que podem ser executadas em uma inst ncia de Query Prepare permite compilar a consulta e prepar la para execu o Execute permite executar uma query compilada Get status permite determinar o status de prepara o execu o da query Get result permite obter o resultado da query QueryableCollection n o introduz novas opera es Ao contr rio herda suas funcionalidades de QueryEvaluator e Collection Objetos desta classe avaliam uma query em membros particulares de uma cole o Deve se notar que qualquer membro da cole o a ser avaliada por ser um objeto QueryableCollection Isso significa que se pode ter um infinito n mero de subconsultas aninhadas Nesta Disserta o os Servi os de Consulta e de Cole o estar o representados nos diagramas de sequ ncias e de classes dos Sistemas BLOOM e Genoma Utilizando a arquitetura CORBA e os servi os descritos acima est sendo poss vel tratar os resultados de sequenciamento como objetos que s o distribu dos atrav s da rede para o servidor central Estes est o sendo atualmente depositados em bancos de dados relacionais administrados pelo programa gratuito PostgreSQL http www postgresal org caso respeitem diversos crit rios de qualidade Pappas 2002 Um sistema conforme o que est sendo proposto encaixa se perfeitamente nessa filosofia pois os laborat rios em rede podem depositar dados gen micos e receber
118. cesso quando um conjunto bem definido de objetivos alcan ado os artefatos documentos relat rios ou programas execut veis s o conclu dos e decis es s o tomadas para se passar fase seguinte Uma itera o uma subdivis o das fases e representa um ciclo completo de desenvolvimento resultando em uma vers o interna ou externa de um subconjunto do produto final em desenvolvimento que cresce de modo incremental de uma itera o para outra at se tornar o sistema final A passagem pelas quatro fases 126 chamada de um ciclo de desenvolvimento que se constitui de fluxos de trabalho inclusive aqueles da metodologia tradicional de desenvolvimento em cascata Segue o esquema Disciplines Business Modeling Requirements Analysis amp Design Em plementation Test Deployment Configuration amp Change Mgmt Project Management Environment Iterations Figura 4 2 1 Ciclo de vida do RUP Todas as palavras em ingl s est o traduzidas no texto abaixo Fonte http www ambysoft com unifiedProcess html De modo mais detalhado as quatro fases podem assim ser descritas a Concep o ou Inception a primeira fase do processo Para este trabalho de Disserta o foram conseguidos os artefatos de identifica o do problema identifica o das necessidades do cliente realiza o de estimativas superficiais an lise da viabilidade t cnica e econ mica do produto proposta de um esbo o para
119. classes para especificar quais objetos ela cria e pode se localizar a informa o de quais classes foram criadas Existem diversas varia es deste pattern a a superclasse abstrata e o pattern deve retornar uma classe concreta b a superclasse cont m m todos e apenas ter subclasses para os casos em que esses m todos sejam insuficientes e c os par metros s o passados para f brica para que esta saiba qual dos diversos tipos de classes deve ser retornado Nesse caso as classes podem compartilhar os mesmos nomes de m todos embora esses sejam m todos polim rficos vide polimorfismo Para este trabalho de Disserta o este pattern est sendo utilizado tamb m para a estrutura o das classes de controle do Servi o de Persist ncia baseado no modelo POS Persistent Object Service do CORBA Devido sua import ncia outros usos neste Sistema est o sendo estudados 135 O Pattern Facade Frequentemente medida que os programas s o desenvolvidos cresce tamb m a complexidade Este pattern permite reduzir essa complexidade provendo uma interface simplificada que minimiza a comunica o e as depend ncias dos sub sistemas tornando os mais reutiliz veis port veis independentes e mais f ceis de serem mantidos Tamb m pode se utilizar este pattern para dividir o sistema em camadas Cooper 2002 Um bom exemplo onde este pattern utilizado e nas interfaces JDBC do pr prio JAVA Pode se conectar a qual
120. com um espa o na sequ ncia t tem preced ncia sobre uma coluna com dois s mbolos a qual por sua vez tem preced ncia sobre uma coluna com um espa o em s Por isso o alinhamento global timo rastreado para as sequ ncias s AAAC e f AGC Tabela 3 3 10 Tabela 3 3 10 Alinhamento global timo para as seqii ncias s AAAC e t AGC e n o por exemplo Quanto ao escore mostrado na ltima linha das Tabelas 3 3 10 este pode ser encontrado sempre na ltima c lula do alinhamento ou na ultima c lula da matriz quando o alinhamento se estender de um extremo a outro que o caso das sequ ncias aqui consideradas Visto sob o aspecto gr fico o rastreamento reverso tamb m utiliza a tabela preenchida pela computa o tabular e construir o alinhamento timo mostrado acima Ent o a partir da tabela Figura 3 3 12 tudo que se precisa fazer tomar um caminho iniciando na posi o m n e seguir as setas at que se chegue posi o 0 0 Meidanis 63 e Setubal 1997 Cada seta representa uma das tr s poss veis colunas do alinhamento se essa seta for horizontal ela corresponder a uma coluna com um espa o em s pareado com t j o que pode ser interpretado como uma inser o do caracter tjj em s se for vertical corresponder a s i pareado com um espa o em t sendo interpretada como uma exclus o do caracter s i com rela o a t e finalmente uma seta diagonal significa s i pareado com t
121. comparadas sequ ncia de busca usando uma matriz de substitui o para computar os escores W e T s o par metros do programa al m de S escore m nimo de segmento Essa lista talvez n o contenha todas as identidades de tamanho W Se essas identidades consistem de amino cidos muito comuns as sequ ncias podem ser descartadas porque mesmo um alinhamento da sequ ncia com sua c pia poderia apresentar um valor 91 abaixo de T Entretanto existe uma op o para for ar a inclus o de todas essas sequ ncias de baixa complexidade Meidanis e Setubal 1997 Para buscas de DNA a lista inicial cont m apenas as palavras de tamanho W da sequ ncia de busca Determinar escore para essas sequ ncias sempre mais f cil e isso suficiente para todos os prop sitos A estrat gia de rastreamento radicalmente diferente do caso das prote nas H a vantagem do fato de que o alfabeto tem apenas um tamanho 4 ACGT e por isso o banco de dados inicialmente comprimido para permitir que cada nucleot deo seja representado por 2 bits ou seja 1 byte comporta 4 nucleot deos Al m do espa o que se economiza a busca torna se mais r pida porque 1 byte comparado a cada vez Tabela 3 3 17 Existe um passo extra de filtragem que remove dessa lista inicial palavras muito comuns do banco de dados o que evita um alto n mero de falsas identidades Sequ ncia de busca QLNFSAGWAA Tamanho da palavra W 2 tipicamente esse valor
122. cores dos melhores alinhamentos entre os prefixos menores ficam armazenados na matriz se uma ordem apropriada escolhida para computar as entradas Como consequ ncia a similaridade sim s 1 t 1 da matriz a pode ser determinada pela f rmula a seguir Figura 3 3 1 na qual p i j 1 se sfil tlJle 1 se sil tj 56 afij 1 2 a li j max ali 1 j 1 p i j ali 1 j 2 Figura 3 3 1 A f rmula da rela o recorrente de programa o din mica a 0 j 2j Figura 3 3 2 A condi o base da rela o recorrente do alinhamento global para as seq ncias s AAAC e t AGC Figura 3 3 3 A condi o base da rela o recorrente do alinhamento local para as sequ ncias s AAAC e t AGC 57 A computa o tabular ou computa o da tabela o segundo componente essencial da programa o din mica e usa as rela es recorrentes para eficientemente computar o valor da entrada afi j Gusfield 1997 Essa tarefa pode ser implementada usando qualquer linguagem de programa o que permita recurs o por exemplo Java Por um enfoque bottom up dos menores para os maiores valores de ji e j a matriz preenchida linha a linha da esquerda para a direita ou coluna por coluna de cima para baixo Para computar por exemplo o valor de a 7 1 os tr s valores pr vios necess rios seriam a 7 0 2 2 2 4 sendo o segundo valor 2 relativo penalidade de espa o a 0 0 1 0 171 7 pois s
123. d Projeto teste Bibliotecas r biot Flaca Biblioteca ei a f bib 4 laca05 meosta E gi17544719 reRalstonia solanacea gil21229478 rexanthomonas camp E gi 15675 48 reMeisseria meningitidi HEIE gi 15793034 reMeisseria meningitidi H gipl3470324 reMesorhizobium loti EE gi 15890089 rrAgrobacterium tume H gil17336711 reAgrobacterium tume amp qi 15363753 re5inorhizobium medio amp gi 16127994 re Escherichia coli k12 amp gi 21218582 reStreptomyces coelic amp qi 9628932 refMolluscum contagios H A gi 15595198 rePseudomonas aerug H ail2l240774 rexanthomonas axon amp qi 16l24256 reCaulobacter cresce amp qi 15607142 reMycobacterium tube H gi 17986284 reBrucella melitensis c qi 15839372 reMycobacterium tube u 1 989726 13 1 91663e 10 1 13902e 05 0000177539 1 1390 e 05 1 13902e 05 1 1390 e 05 00433535 0433535 0 171306 0 676596 1 153902e 05 0109 17 26467 2 67467 oA Fi iT 26467 hat cPlaca E m E Usu rio ADZ esd ljedzzo Jatz 1923020 1608073 276651 FIM 1301180 altza 2729903 oatitia 59369 5087512 J008 eE 4038558 133570 40306491 1423329 3634395 1523069 1608107 E ibhoSd Frar la lz i alpaga 2729949 gal ra 59399 5087556 3 9079 3039301 4038589 193601 40a Figura 0 1 Sistema BLOOM sum rio do resul
124. d Temin e o de David Baltimore mostraram que certos virus a RNA eram capazes de empregando o RNA como molde fazer uma fita simples de DNA Essa observa o foi mal recebida pela comunidade cient fica em especial por J Watson Entretanto ap s sua confirma o por muitos autores em diferentes sistemas virais ficou definitivamente demonstrado que o caminho inverso na informa o g nica entre RNA e DNA de fato existia na natureza O dogma passou ent o a ser grafado DNA lt gt RNA gt Prote na pois se admitiu a transcri o reversa GENTROP 2001 N o se concebe a probabilidade de que a segunda parte do dogma RNA gt Prote na seja quebrada na natureza Conforme GENTROL 2001 a raz o disto simples para cada base de DNA h uma e somente uma base de RNA que pode a ela se emparelhar e vice versa Isto chamado pelos matem ticos de uma fun o bi un voca No entanto para o caso das proteinas o mesmo n o acontece pois para cada um dos vinte amino cidos existem algumas vezes at seis diferentes c dons poss vel ent o formar 64 diferentes c dons de tr s bases por um arranjo de 4 bases tomadas tr s a tr s Exclu dos os c dons que significam sinais como in cio e fim de s ntese prot ica mesmo assim o conjunto dos c dons tem muito mais elementos que o de amino cidos Por isso a determina o dos amino cidos pelos c dons n o uma fun o e sim uma rela o n o admitindo portanto in
125. de Moore dobrar o tamanho a cada 18 meses Apenas para efeito ilustrativo o tamanho total do GenBank j ultrapassa 14 milh es de sequ ncias apresentando um crescimento acumulado de 200 nos ltimos tr s anos e o arquivo de prote nas PDB tamb m j possui um volume total acima de 17 000 diferentes sequ ncias de prote na o que significa um crescimento acima de 50 desde 1999 conforme mostram os gr ficos abaixo Figuras 1 1 1 e 1 1 2 mo Pares de bases di agiancias Figura 1 1 1 Crescimento do GenBank Atualizado em 12 03 2002 A parte direita e mais escura azul o n mero de pares de bases em milh es de unidades a linha com tra os o n mero de sequ ncias tamb m em milh es de unidade Fonte http www ncbi nlm nih gov Genbank genbankstats html E Estruturas depositadas no ano E Total de estruturas dispon veis 1972 1973 1974 1975 1976 1977 1978 1979 1980 1581 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 Ano Figura 1 1 2 Crescimento do PDB Atualizado em 12 03 2002 As barras menores e esquerda s o o n mero de sequ ncias depositadas por ano as barras direita s o o n mero total de segii ncias dispon veis Fonte http www rcsb org pdb holdings html Conforme relato pessoal de Kim 2002 h dez anos para se obter a sequ ncia de 200 pares de bases ou bp base pair de DNA isso levava aproximadamente 5 dias
126. de come ar com lt quanto terminar com gt respectivamente Em algumas situa es raras por exemplo PS00267 ou PS00539 esse s mbolo tamb m pode ocorrer dentro dos colchetes para o elemento C terminal como o caso de F GSTV P R L G gt que pode significar F GSTV P R L G ou F GSTV P R L gt h Um ponto final encerra o padr o Alguns exemplos dessas assinaturas s o a AC x V x 4 ED traduzido como Ala ou Cys qualquer Val qualquer qualquer qualquer qualquer fqualquer exceto Glu ou Asp b lt A x ST 2 x 0 1 V que deve estar no N terminal da sequ ncia lt traduzido para Ala qualquer Ser ou Thrl Ser ou Thrl qualquer ou nenhum Val c IRK x 2 3 DE x 2 3 Y o padr o PROSITE PS00007 traduz se como Arg ou Lysl qualquer qualquer Asp ou Glul qualquer qualquer qualquer Tyr d G EDRKHPFYW x 2 STAGCN P o padr o PROSITE PS00008 que pode ser traduzido para Gly qualquer exceto Glu Asp Arg Lys His Pro The Tyr ou Trp qualquer qualquer Ser Thr Ala Gly Cys ou Asnf qualquer exceto Pro Cada um dos padr es PROSITE representados como perfis s o derivados de um alinhamento m ltiplo de membros de uma fam lia e s o usados quando a similaridade nesse conjunto insuficiente para derivar uma assinatura efetiva Habilidade adicional para reconhecer novos membros de uma fam lia pode ser obtida por extrapola
127. de desses dados ser ainda mais valorizada desses Impossibilidade quanto aos produtos atuais de livre 5 O problema acesso de juntar sequ ncias externas aos resultados do BLAST para se executar um alinhamento m ltiplo O impacto disto 3 O problema 4 O problema 144 Todos os pesquisadores interessados em pesquisa na rea de bioinform tica inclusive os integrantes da Biofoco A execu o do alinhamento m ltiplo sempre fica restrita lista de sequ ncias recuperadas na consulta BLAST sem que haja possibilidade de se agregarem sequ ncias de outros projetos e fazer um estudo comparativo Expandir a lista de sequ ncias a serem submetidas a Uma solu o de sucesso permitir l E alinhamento multiplo Impossibilidade quanto aos produtos atuais de livre acesso de cria o e manuten o de uma lista de prefer ncias wish list para que o pesquisador possa ser automaticamente avisado por e mail de que novas informa es de seu interesse est o armazenadas no BD pairwise XML Afeta quem Todos os pesquisadores integrantes da Biofoco Os pesquisadores precisam realizar manualmente a busca por novas informa es relativas s sequ ncias de um projeto Em alguns casos isso significa reexecutar uma consulta BLAST Economia de tempo e ganho de performance no Uma solu o de sucesso permitir conhecimento das novas informa es dispon veis sobre os assuntos assinalados na lista de
128. de dos casos de SO aaa aa pa OD E AO 159 Tabelas 122 Distribui o das Mera esS usa ara RUE RD ES GL NL 171 LISTA DE ABREVIATURAS E S MBOLOS MAIS UTILIZADOS Basic Local Alignment Search Tool ou Ferramenta B sica de Busca de E BLAST aaa a E Alinhamento Local BLOSUM Block Substitution Matrices ou Matrizes de Substitui o de Blocos bp Base pair par de bases ou simplesmente bases Common Object Request Broker Architecture ou Arquitetura Comum de CORBA agente de Requisi o de Objeto 20202000000 l DNA DeoxyriboNucleic Acid ou cido Desoxirribonucl ico DTD Document Type Definition ou Defini o de Tipo de Documento EMBRAPA __ Empresa Brasileira de Pesquisa Agropecu ria ESTs Expressed Sequence Tags ou Etiquetas de Seq ncias Expressas l FASTA Fast Alignment ou Alinhamento R pido o o HTML HyperText Markup Language ou Linguagem de Marca o de Hipertexto J2EE Java2 Enterprise Edition ou Edi o Corporativa de Java2 MRNA RNA mensageiro NCBI National Center for Biotechnology Information ou Centro Nacional de OS Informa o Biotecnol gica OGM Organismo Geneticamente Modificado OMG Object Management Group ou Grupo de Gerenciamento de Objetos o ORESTES Open Reading Frames ESTs ou ESTs de Regi o de Leitura Aberta L ORF Open Reading Frame ou Regi o de Leitura Aberta L PAM Point Accepted Mutation ou Muta o Pontual Aceita
129. de segmentos similares de proteinas com estrutura tridimencional j conhecida A informa o vinda de diferentes modelos medida de acordo com a sua similaridade com o segmento de teste NNSSP um aprimoramento do algoritmo projetado por Yi and Lander 1993 Uma rede neural com m ltiplas camadas apresentada com estruturas e sequ ncias conhecidas A rede treinada at que ela possa predizer as estruturas dadas aquelas sequ ncias A camada de entrada uma sequ ncia prim ria A camada de sa da a probabilidade de que um res duo de sequ ncia possa formar uma estrutura particular A camada oculta intermedi ria onde o atual aprendizado acontece um conjunto de treinamento provido com todas as sequ ncias de estruturas tridimensionais conhecidas e o treinamento involve an lise de res duos particulares e suas probabilidades de contribuirem para uma certa estrutura em diferentes contextos Diferentes redes podem ser criadas para tipos diversos de prote nas Vide http www Jibrary csi cuny edu davis Bioinfo 326 lectures lect1f 12 lect 12 html 2 Garnier J Osguthorpe DJ Robson B 1978 Analysis of the accuracy and implications of simple methods for predictiong the secondary structure of globular proteins J Mol Biol 120 97 120 ML Gibrat JF Robson B Garnier J 1987 Further developments of protein secondary structure prediction using information theory New parameters and consideration of residue pairs J Mol Biol
130. de um alinhamento m ltiplo dos membros de uma certa fam lia Atualmente este banco de dados cont m assinaturas e perfis espec ficos para mais de mil fam lias e dom nios de prote nas Cada um desses padr es vem acompanhado de documenta o sobre a estrutura e a fun o da proteina da qual foi derivado Gusfield 1997 As assinaturas s o escritas como express es regulares finitas PROSITE 2002 utilizando as seguintes conven es a Uma letra designa cada amino cido segundo o padr o IUPAC Uni o Internacional de Qu mica Pura e Aplicada b O s mbolo x usado para uma posi o em que qualquer amino cido aceito c Ambig idades s o indicadas por uma lista entre colchetes dos amino cidos aceitos para uma determinada posi o Por exemplo ALT representa Alanina ou Leucina ou Treonina d Ambig idades tamb m s o indicadas listando entre chaves os amino cidos n o aceitos para uma determinada posi o Por exemplo AM representa qualquer outro amino cido exceto Alanina e Metionina e Cada elemento em um padr o separado de seu vizinho por um f Repeti o de um elemento do padr o pode ser indicada por um valor ou um limite num ricos colocados entre par nteses logo ap s esse elemento Por exemplo x 3 corresponde a x x x e x 2 4 corresponde a x x ou X X x Ou X X X X T2 g Quando o padr o est restrito ao N ou C terminal de uma seq ncia esse padr o tanto po
131. de usu rio e a senha para entrar no Sistema Genoma Sair mapa Figura 0 1 Sistema Genoma valida o do usu rio e entrada UNIVERSIDADE CATOL TITA DE BRAS LIA Universidade de Erasilia E Sistema Genoma Consultas A Mapa de Qualidade 4fResumo da PlacaAfanalisede sequ ncia Relat rios fRedund ncia E e ein Selecione a placa Projeto f teste g Todas as bibliotecas D 0 Biblioteca Flaca gt gt EEE Selecionar esta placa TF sad ar Biblioteca fi l Placa Respons vel li Orienta o Data bbo feorme maro mota porizizme bbo placa measta O oaa bor placas eosta OO o bibon placan costa hisfiajanme hihi alarang rmemeka FANAN o Figura 0 2 Sistema Genoma m dulo de Consulta Sele o da placa fin Sistema Genoma e Ger ncia Transfer ncia Sele o z E O f Biblioteca Selecione o clone BOI sd y An lise de Sequ ncia An lises para o clone Mapa de restri o Desenho de primers p s Troll repeats DD mMM Predi o de ATG An lise de ORFs Resultados do Blast Monitor de Sele o Figura 0 3 Sistema Genoma m dulo de An lise de Seqii ncia Para entrar no Sistema BLOOM clicar no bot o Resultados do BLAST
132. definir suas pr prias tags e determinar o software que poder enviar receber mostrar ou armazenar o arquivo no seu formato original ou o conte do dessas tags XML utiliza um DTD Document Type Definition ou Defini o de Tipo de Documento ou um XML Schema Esquema XML para descrever os dados e manter suas regras de valida o Os esquemas s o projetados para serem auto descritivos V rios autores apontam vantagens no uso do XML Schema pois este totalmente XML permite a defini o de tipos de dados pr prios utilizada descri es mais detalhadas mais modular e mais f cil de reusar Utilizando esses esquemas ferramentas como o Castor http castor exolab org e o JAXB http java sun com xml jaxb convertem o documento 140 XML em objetos JAVA unmarshaling ou vice versa marshaling Brodkin 2001 Vide Figura 4 6 1 a seguir arg de mapeamento opcional Unmarshalling ri ei e Marshalling Figura 4 6 1 Fluxo de dados na ferramenta Castor Fonte http builder com com article jhtml id u00320021021HX001 htm amp vf tt No Sistema proposto nesta Disserta o o XML funcionar como uma moeda de troca entre os diversos tipos de sa das de programas de bioinform tica A partir dos dados armazenados o processo autom tico de an lise iniciado A utiliza o do CORBA traz benef cios adicionais pois permite integrar os diversos programas de an lise de sequ ncia viabilizando a sua
133. deriva o de rvore filogen tica a partir das sequ ncias selecionadas para o alinhamento m ltiplo e permitir visualiza o gr fica do resultado O pesquisador poder escolher dentre as diversas ferramentas apresentadas a mais adequada para a execu o de cada uma das an lises Permitir visualiza o mais interativa dos alinhamentos do hits por exemplo fazer com que a sequ ncia de busca fique ancorada no topo da tela e n o deslize juntamente com as demais visualiza o do alinhamento pairwise na mesma janela sem perder a visualiza o completa do alinhamento dos hits etc Sempre que poss vel ajustar cores e outras caracter sticas das sequ ncias de acordo com crit rios do tipo escore e value z value qualidade PHRED dentre outros 14 h Sempre que poss vel restringir os resultados de acordo com os par metros especificados pelo pesquisador Para isso ser implementado o Servi o de Filtragem Permitir ao pesquisador consultar diretamente novos resultados armazenados no BD pairwise XML pelas escolhas constantes em sua lista de prefer ncias j Agendar e executar automaticamente atividades relativas s sequ ncias de interesse armazenadas no BD pairwise XML por exemplo uma nova consulta BLAST 15 3 REFERENCIAL TE RICO DE BIOLOGIA MOLECULAR COMPUTACIONAL 3 1 NO ES B SICAS DE BIOLOGIA MOLECULAR Devido ao prop sito desta Disserta o estar voltado especificamente para bioinform tica
134. desigualdades entre amino cidos raros por exemplo cisteina e entre amino cidos hidrof bicos e tamb m valores mais negativos para desigualdades entre amino cidos hidrof licos Baseado em http www blc arizona edu courses bioinformatics blosum html Na tabela acima Tabela 3 3 13 BLC 1999 cada entrada a frequ ncia atual de ocorr ncia do par de amino cido no BLOCKS agrupado com os demais de 62 de identidade dividido pela probabilidade esperada de ocorr ncia O valor esperado calculado a partir da frequ ncia de ocorr ncia de cada um dos dois amino cidos no BLOCKS e prov uma medida de um alinhamento aleat rio dos dois amino cidos A propor o atual esperada expressa como um escore log odds das chamadas unidades halfbit obtidas pela convers o da propor o para um logaritmo de base 2 multiplicado por 2 Um escore zero significa que a frequ ncia do par de amino cidos no banco de dados a mesma esperada por acaso um valor positivo mostra que o par foi encontrado mais frequentemente que por acaso e um escore negativo significa que o par foi encontrado menos frequentemente que por acaso Pode se perceber que os mais 71 altos escores acontecem entre amino cidos do mesmo grupo qu mico algo tamb m visto nas matrizes PAM 3 3 9 Algoritmos heur sticos para buscas em bancos de dados O advento de tecnologias r pidas e confi veis para sequenciamento de cidos nucl icos
135. desta Disserta o O uso do Sistema como ferramenta de datamining auxilia na visualiza o e explora o das informa es que trafegam como entrada ou sa da entre as diversas ferramentas integradas O ambiente proposto para integra o das ferramentas mostra se bastante complexo Por isso n o se pode prescindir do uso de um processo de desenvolvimento de software com boa documenta o em todas as fases emprego de tecnologias atuais de objetos distribu dos e constante ado o de solu es padronizadas de projeto e integra o representadas por design patterns e XML respectivamente Ainda n o h no mercado e nem no meio acad mico um ambiente com o n vel de integra o proposto neste projeto conforme pesquisas realizadas at o m s de novembro de 2002 necess rio dispender tempo e esfor o para divulgar o Sistema apresentar seus benef cios e motivar o uso pois os pesquisadores possuem maneiras muito pr prias de trabalho e j est o habituados com certas ferramentas 183 8 DESENVOLVIMENTOS FUTUROS Conforme avalia o da equipe de analistas de neg cio e dos primeiros usu rios do aplicativo apesar dos bons resultados obtidos at o momento esta Pesquisa n o pode ser considerada conclu da Dentre os poss veis trabalhos futuros legados ao informata destacam se a Aprofundar seus conhecimentos quanto biologia molecular computacional envolvida nos projetos genoma da Rede Biofoco para continuar propond
136. don de in cio START CODON e de termina o STOP CODON Dependendo de onde come a o processo de tradu o pode assumir 6 possibilidades 1 2 ou 3 base da fita 1 ou 1 2 ou 3 base da fita complementar Seu tamanho m ltiplo de 3 3 Exon segundo o dicion rio Aur lio S culo XXI significa 1 regi o do DNA de eucariotos que ap s a transcri o permanece no cido ribonucl ico Essa sequ ncia propicia a s ntese de proteina e por isso chamada de regi o codante 3 Subs rie ou substring em ingl s significa segu ncia de caracteres coincidentes que for osamente est o em posi es adjacentes com rela o aqueles da seq ncia a que s o comparados por exemplo a subs rie a opqab com rela o a b mnopqabc 37 rvore de sufixos ou suffix tree em ingl s uma representa o compacta de uma rvore de strings trie correspondente aos sufixos de uma dada string onde todos os n s com um filho s o mesclados com seus pais Vide http www cc 10c ce jJus gtgelossary gtelos sp sz htmf suffix 38 Primer uma curta e preexistente cadeia polinucleot dica qual novo DNA pode ser adicionado por DNA polymerase Vide http www cstl nist gov biotech strbase glossary htm 2 PCR Polimerase Chain Reaction ou Rea o em Cadeia da Polimerase o m todo que permite a amplifica o de qualquer regi o espec fica do DNA um gene uma regi o repetitiva etc a partir do DNA gen mico Dest
137. dos pelo organismo Isso porque diferentes tecidos expressam diferentes genes sob diferentes condi es e mesmo esses s o expressos com diferentes intensidades Assim sendo projetos desse tipo raramente conseguem identificar todos os genes de um organismo e na maioria das vezes genes fortemente expressos s o sequenciados muitas vezes e os de express o fraca ou transiente frequentemente n o s o identificados Pereira 2001 Frequentemente as sequ ncias parciais ESTs se originam de ambas as extremidades do cDNA embora alguns projetos prefiram a extremidade 3 por facilitar a gera o de sequ ncias consenso atrav s do agrupamento de v rios ESTs enquanto outros escolhem a extremidade 5 por estar mais 101 pr xima da regi o codificadora da prote na o que facilita a identifica o por homologia Santos e Ortega 2001 c ORESTES Open Reading Frames ESTs uma t cnica desenvolvida no ano de 2000 por Emmanuel Dias Neto sob a orienta o do brit nico Andrew Simpson coordenador do Genoma C ncer FAPESP ambos pesquisadores do Instituto Ludwig de S o Paulo e co autores do estudo O enfoque inovador permitir o sequenciamento da regi o central dos mRNAs pois se baseia na amplifica o de cDNAs por PCR aleat rio cujos produtos s o utilizados para gerar uma biblioteca O sequenciamento dessa biblioteca contendo fragmentos aleat rios derivados de diferentes regi es de cada mRNA favorece o reconhecimento da f
138. e Karlin Altschul e Dembo que derivaram os resultados de probabilidade usados no BLAST para avaliar a signific ncia estat stica das identidades relatadas BLAST atualmente uma cole o de programas Tabela 3 3 15 sendo que cada um deles est direcionado para um dom nio diferente NCBI Education 2002 Compara duas segu ncias de amino cidos sendo a primeira a sequ ncia 1 de busca e a segunda do banco de dados Compara duas sequ ncias de nucleot deos sendo a primeira a sequ ncia de busca e a segunda do banco de dados Compara uma sequ ncia de nucleot deo traduzida em todos os seus reading frames com uma sequ ncia de prote na do banco de dados Pode blastx se usar esta op o para encontrar potenciais produtos traducionais potential translation products de uma sequ ncia desconhecida de iv Vide E W Myers A sublinear algorithm for approximate keyword searching Algorithmica 12 4 5 345 374 1994 87 nucleot deo Compara uma segu ncia de prote na com uma sequ ncia de nucleot deo traduzida dinamicamente em todos os seus reading frames Compara os 6 frames traducionais de uma sequ ncia de nucleot deos com os 6 frames traducionais de outra sequ ncia de nucleot deos do banco de dados E tblastx N o se permite que esta op o seja usada com o banco de dados nr diretamente na p gina do BLAST pois ela demanda recursos computacionais muito intensos Tabela
139. e aninhamento de par nteses conforme Figura 3 7 2 Taxon B Taxon Tax n A B C D E Taxon D Taxon E anipnbamento de ciadograma ou rvore par nteses correspondente Figura 3 7 2 Exemplo de cladograma e aninhamento de par nteses correspondente Fonte http www library cs1 cuny edu davis Bioinfo 326 lectures lectl4 lect 14 html Infer ncias filogen ticas s o procedimentos de estimativas Assim existe uma s rie de algoritmos que podem ser aplicados e que s o classificados em duas categorias Figura 3 7 3 crit rios qualitativos baseados em otimiza o dos dados e crit rios quantitativos baseados na dist ncia entre os dados Fernandes Matioli 2001 M TODO COMPUTACIONAL Crit rios qualitativos Crit rios quantitativos PARCIM NIA M XIMA VEROSSIMILHAN A Caracteres EL Ez mI E o E EVOLU O M NIMA UPGMA FAST SQUARES NEIGHB OR JOINING Dist ncias Figura 3 7 3 Quadro explicativo dos m todos utilizados na constru o de rvores filogen ticas moleculares Fonte http www cb ufmg br Ibem aulas grad evol evolmol 119 Nos m todos de dist ncia as diferen as entre duas sequ ncias s o reduzidas a uma s vari vel n mero de diferen as e suas rela es evolutivas n o s o consideradas Nesse m todo primeiramente calcula se a dist ncia para a seguir reconstruir a rvore filogen tica utilizando um algoritmo espec
140. e do vocabul rio t cnico de bioinform tica e por isso ser usado de agora em diante 52 alinhamento deve sempre que poss vel refletir o verdadeiro significado biol gico da distribui o dos espa os nas lacunas n o meramente o n mero de espa os no alinhamento pois o modo como os valores s o atribu dos influencia criticamente a efetividade do conceito N o existem muitas fun es de penalidade de lacunas e somente algumas levam em conta essa necessidade Atualmente as principais fun es ou modelos adotados s o Gusfield 1997 a Constante a escolha mais simples onde cada espa o individual livre e um valor V dado a cada lacuna independente da quantidade de espa os que contenha Sendo V e Va os valores para identidades e diverg ncias respectivamente encontrar um alinhamento m ximo poderia ser da forma Vi f identidades Va f diverg ncias V lacunas ou gaps J Mais genericamente se os valores de identidades e diverg ncias forem dependentes de alfabeto DNA prote na etc ent o o objetivo do modelo ser encontrar um alinhamento A que maximize Hi S S i i S gt i Volt lacunas ou gaps onde s x s x O para cada caracter x porque os espa os isolados n o s o considerados e S e S representam as sequ ncias S e S ap s a inser o de espa os b Afim ou linear provavelmente o modelo mais utilizado na literatura de biologia molecular e pode ser considerado uma g
141. e entrada com pares de indices menores que iej Quando n o existirem ndices menores o valor de a i j deve ser determinado explicitamente pela chamada condi o base a i 0 2i e a 0 j 2j onde 2 a penalidade para cada espa o Isso porque existe apenas um alinhamento poss vel se uma das sequ ncias for vazia adicionam se tantos espa os quanto forem os caracteres na outra sequ ncia O escore desse alinhamento ser 2k onde k o tamanho da sequ ncia n o vazia Para alinhamento local a condi o base seria atribuir o valor zero para todas as c lulas da primeira linha e tamb m da primeira coluna da forma a i 0 0 e a 0 j O Logo em seguida s o apresentadas as tabelas da condi o base tanto para o alinhamento global quanto para o alinhamento local Figuras 3 3 2 e 3 3 3 Meidanis e Setubal 1997 Para computar os demais valores a observa o chave que se pode computar o valor para a i j a partir de tr s entradas pr vias 1 1 1 1 1 e 1 1 Meidanis e Setubal 1997 A raz o que existem apenas tr s caminhos exaustivos para obter um alinhamento entre s 1 e t 1 pois n o se pode ter dois espa os pareados na ultima coluna do alinhamento alinhar s 1 com t 1 1 o que significa parear um espa o com t j ou alinhar s 1 i 1 com t 1 j 1 pareando sfi com tfj ou alinhar s 1 1 com t 1 7 o que produz o par sfi com um espa o Os es
142. e gt lt Hsp score gt 393 lt Hsp score gt lt Hsp evalue gt 0 lt Hsp evalue gt lt Hsp query from gt 34 lt Hsp query from gt lt Hsp query to gt 446 lt Hsp query to gt lt Hsp hit from gt 2567 lt Hsp hit from gt lt Hsp hit to gt 2978 lt Hsp hit to gt lt Hsp query frame gt 1 lt Hsp query frame gt lt Hsp hit frame gt 1 lt Hsp hit frame gt lt Hsp identity gt 409 lt Hsp identity gt lt Hsp positive gt 409 lt Hsp positive gt lt Hsp gaps gt 1 lt Hsp gaps gt lt Hsp align len gt 413 lt Hsp align len gt lt Hsp qseq gt GCAGAGACCGTCGGCCGTGAGGTGTTTGCAGCATATCACTCTGCT GTAATCAGTGTGTCGCTTCTGCACAATCAGAGACTGTCTCATCTCTCCACTC 192 AACGTGGAAGTTGCCTTGTGCCTAAACTGAATTGACAAATGCATTGTAACTA CAAATTTTATTTATTGTTATGGAACTGTGAGGTCTACATATAAAGGGAAAAGT TCATGTGGGAAGCTGGTGTACACTCAGCTGATGCCAGCATTGTTAAAGCTGT TCACAGAGCAGTGGCAACCATTGGCCCTTAGCATTCCCGGCATACCTGTTAG TGTCTTAAAAAGGAAGGGAGTCCTTTGTTGCCCTCTCCGACCTTCGCCATAT GAATAGTGATTTCCATGAAATAGGAAAAATATTACTTCGTATAGCATTTCTCT CT lt Hsp qseq gt lt Hsp hseq gt 6GCAGAGACCGTCGGCCGTGAGGTGTTTGCAGCATATCACTCTGCT GTAATCAGTGTGTCGCTTCTGCACAATCAGAGACTGTCTCATCTCTC ACTCAACGTGGAAGTTGCCTTGTGCCTAAACTGAATTGACAAATGCATTGTA ACTACAAATTTTATITATTGTTATGGAACTGTGAGGTCTACATATAAAGGGAA AAGTTCATGTGGGAAGCTGATGTACACTCAGCTGATGCCAGCATTGTTAAAG CTGTTCACAGAGCAGTGGCAACCATTGGCCCTTACGATTCCCGGCATACCTG TTAGTGTCTTAAAAAGGAAGGGAGTCCTTTGTTGCCCTCTCCGACCTTCGCC ATATGAATAGTGATTTCCATGAAATAGGAAAAATATTACTTCGTATAGCATTT CTCTCT lt Hsp hseqg gt NSeg lt
143. e mais informa es no item Intera es ou perspectivas do produto j Aplicativo de rvore filogen tica seu papel possibilitar a deriva o da rvore filogen tica das sequ ncias escolhidas pelo Pesquisador quando da visualiza o gr fica do resultado do alinhamento m ltiplo Consulte mais informa es no item Intera es ou perspectivas do produto No Diagrama de Classes no entanto esses atores n o ser o apresentados como classes pois n o foram identificados atributos espec ficos para cada um Booch et al 2000 Al m disso embora atores sejam utilizados na modelagem eles n o s o de fato parte da aplica o ou seja apenas interagem com os casos de uso mas residem fora do sistema 157 5 11 2 Casos de uso do ator Pesquisador a b c d e f Visualizar alinhamento pairwise a partir dos dados de alinhamento pairwise obtidos do BD pairwise XML ou diretamenqte do Aplicativo de alinhamento pairwise este caso de uso possibilita ao Pesquisador obter os dados de anota o das sequ ncias envolvidas filtrar o resultado que pode conter dezenas ou centenas de hits utilizando par metros espec ficos e principalmente visualizar e manipular graficamente o conjunto resultante Construir alinhamento m ltiplo a partir da sele o de um subconjunto das sequ ncias resultantes do alinhamento pairwise este caso de uso possibilita ao Pesquisador construir e visualizar graficamente o
144. e modo pode se por exemplo obter milh es de c pias do fragmento de DNA de 300 pb dentro do gene CFTR cujo defeito leva doen a Fibrose C stica Pode se analis lo posteriormente com digest es de enzimas de restri o e t cnicas de eletroforese para detec o da muta o Vide http www 1cb ufmg br lbem aulas grad evol genpop html Pal ndromo segundo o dicion rio Aur lio S culo XXI significa 1 frase ou palavra que ou se leia da esquerda para a direita ou da direita para a esquerda tem o mesmo sentido como por exemplo radar e ovo Em Biologia Molecular significa sequ ncia que apresenta correspond ncia exata com sua inversa por exemplo ATCGCCAT e TACCGCTA Subseqgii ncia ou subsequence em ingl s significa sequ ncia de caracteres coincidentes que n o necessariamente est o em posi es cont guas com rela o queles da sequ ncia a que s o comparados por exemplo a subsequ ncia a nqab com rela o a b mnopqabc Similaridade segundo Meidanis e Setubal 1997 significa uma medida de qu o similares s o as sequ ncias envolvidas Homologia segundo o dicion rio Aur lio S culo XXI significa 1 semelhan a de estrutura e de origem em partes de organismos taxonomicamente diferentes Mielina segundo o dicion rio Aur lio S culo XXI significa 1 subst ncia lip ide que forma a bainha em torno de certos nervos Globina segundo o dicion rio Aur lio S culo XXI sig
145. e representassem a probabilidade de que 1 1 em 100 dos amino cidos viesse a experimentar uma muta o resultando na matriz PAM1 Rocha 2000 De maneira mais detalhada Gusfield 1997 explica que idealmente duas sequ ncias S e S s o definidas como sendo divergentes por 1 unidade PAM se uma s rie de muta o pontual aceita sem inser es ou exclus es tiver convertido S em S e vice versa com uma m dia de 1 ponto de muta o por 100 amino cidos envolvidos Isso n o implica que ap s 100 PAMs cada amino cido da sequ ncia ser diferente algumas posi es podem mudar v rias vezes revertendo se at mesmo aos amino cidos originais enquanto outras podem nem sofrer qualquer altera o As matrizes PAM e outras matrizes de substitui o s o geralmente apresentadas como matrizes de probabilidades logar tmicas log odds Isso porque cada escore na matriz o logaritmo de um odds ratio O odds ratio usado a raz o do n mero de vezes que um res duo A observado em substitui o ao res duo B dividido pelo n mero de vezes que se esperaria que um res duo A substituisse o res duo B de modo aleat rio Assim um escore zero significa que a frequ ncia do par de amino cidos no banco de dados a mesma esperada por acaso escores negativos designam pares de res duos que se substituem menos frequentemente do que se esperaria por acaso e evidenciam o fato de as
146. e seq ncias Lista de prefer ncias uma lista que re ne os principais assuntos de interesse do pesquisador Neste Documento essa lista tamb m chamada de wish list Bioinform tica segundo o SNP Consortium http snp cshl org help glossary shtml a ci ncia que usa avan adas t cnicas computacionais para gerenciamento e an lise de dados biol gicos A Bioinform tica particularmente importante como um aux lio pesquisa gen mica a qual gera uma larga quantidade de dados complexos envolvendo bilh es de blocos individuais de DNA e dezenas de milhares de genes Eucarioto segundo o dicion rio Aur lio S culo XXI significa 1 organismo composto por uma ou mais c lulas que possuem n cleo distinto envolvido por membrana nuclear eucarionte Esse organismo mais especializado que seu opositor procarioto que formado por uma nica c lula desprovida de membrana nuclear procarionte 2 C lula som tica qualquer c lula do corpo exceto as c lulas reprodutoras Vide http www ornl gov TechResources Human Genome glossary glossary html 1 Cadeias polinucleot dicas segundo o dicion rio Aur lio S culo XXI significa 1 s rie de tomos minterruptamente ligados entre si em geral numa mol cula org nica 2 pol mero formado pela liga o de nucleot deos 2 Antiparalelo segundo o dicion rio Aur lio S culo XXI significa 1 duas grandezas a que se podem atribuir dire o e sentido q
147. e trabalho est sendo executado conforme o Plano de Desenvolvimento An lise e projeto ou analysis and design descreve as v rias vis es da arquitetura Para o Sistema desta Disserta o este fluxo de trabalho est sendo executado conforme o Plano de Desenvolvimento Implementa o ou implementation leva em considera o o desenvolvimento do software o teste da unidade e a integra o Para o Sistema desta Disserta o este fluxo de trabalho est sendo executado conforme o Plano de Desenvolvimento Teste ou test descreve casos de teste procedimentos e medidas para acompanhamento de erros Para o Sistema desta Disserta o este fluxo de trabalho est sendo executado conforme o Plano de Desenvolvimento Entrega ou deployment abrange a configura o do sistema a ser entregue Para o Sistema desta Disserta o este fluxo de trabalho est sendo executado conforme o Plano de Desenvolvimento Fluxos de trabalho de suporte Gerenciamento de altera es e configura o ou deployment controla as modifica es e mant m a integridade dos artefatos do projeto Para o Sistema desta Disserta o este fluxo de trabalho est sendo executado conforme o Plano de Desenvolvimento 128 Gerenciamento de projeto ou project management descreve v rias estrat gias para o trabalho com um processo iterativo Para o Sistema desta Disserta o este fluxo de trabalho est sendo executado conforme o Plano de Desenvolvimento
148. ece ao princ pio da desigualdade triangular vide t pico Medidas de dist ncia e similaridade um dos axiomas b sicos das medidas de dist ncia Isso porque dist ncia entre s e t pode ser maior que a soma das dist ncias des axe dex at 6 O escore pode ser negativo embora raramente aconte a 7 O escore do alinhamento entre as sequ ncias s e t pode n o ser o mesmo entre tes 8 Quanto mais id nticas s o as sequ ncias maior ser o escore do alinhamento Considerando se duas sequ ncias s e t de DNA ou de proteina os principais tipos ou m todos de alinhamento utilizados pelas aplica es biol gicas s o Global um dos tipos mais comuns de alinhamento e recebe essa denomina o porque as sequ ncias envolvidas s o consideradas em sua globalidade Assim tomam se s e t e coloca se uma sobre a outra de forma Alinhamento pairwise ou alinhamento em duplas Neste trabalho ser utilizado o termo em ingl s por ser o de maior uso pelos pesquisadores da rea Mais detalhes em http bioinfo weizmann ac il courses BCG lectures 02 pairwise 2 3quantitative 02distance html 46 que um caracter da primeira alinhe se a um caracter ou espa o da segunda e vice versa Para o caso das proteinas um alinhamento global sempre mais significativo quando as duas sequ ncias s o membros da mesma fam lia e se quer deduzir suas hist rias evolucion rias pelo exame de similaridade ou diverg ncia Por exemplo a pr
149. edi o de sua estrutura secund ria pelo software SOPMA Figuras 3 6 2 e 3 6 3 V Salamov AA Solovyev VV 1995 Prediction of protein secondary structure by combining nearest neighbor algorithms and multiple sequence alignment J Mol Biol 247 11 15 vi King RD Sternberg MJE 1996 Identification and application of the concepts important for accurate and reliable protein secondary structure prediction Prot Sci 5 2298 2310 vii Rost B Sander C 1993 Prediction of protein secondary structure at better than 70 accuracy J Mol Biol 232 584 599 Rost B Sander C 1994 Combining evolutionary information and neural networks to predict protein secondary structure Proteins 19 55 72 van Cuff J A and Barton G J Application of Enhanced Multiple Sequence Alignment Profiles to Improve Protein Secondary Structure Prediction submited 1999 Jones D T 1999 Protein secondary structure prediction based on position specific scoring matrices J Mol Biol 292 195 202 xl http www cmpharm ucsf edu nomi nnpredict html Keni NPS Network Protein Sequence Analysis TIBS 2000 March Vol 25 No 3 291 147 150 Combet C Blanchet C Geourjon C and Del age G http npsa pbil ibcp fr cgi bin secpred_sopma pl li Flavodoxina uma toxina de fungos 113 Figura 3 6 1 A estrutura tridimensional da prote na Flavodoxina Fonte http Awww library csi cuny edu davis Bioinfo 326 lectures lectll 12 1CZ
150. eld a classe de modelo poderia ser uma cadeia de caracteres string e o controlador cuidaria dos eventos provenientes da interface e da aplica o mantendo o valor da cadeia de caracteres e do campo texto consistentes Ent o se o usu rio 133 apagasse o conteudo da caixa de texto o valor da cadeia de caracteres teria de ser alterado de acordo Na maioria das linguagens de programa o a fun o do controller desempenhada pelo pr prio sistema geral de notifica o de eventos No caso de Java o controller implementado com base em callbacks jdk 1 0 e listeners jdk 1 1 em diante De uma forma geral o MVC apresenta uma cole o de tr s classes que desempenham fun es complementares e trabalham em coopera o entre si Alguma experi ncia usando o MVC pode auxiliar em muito a habilidade de dividir uma aplica o em classes Com a integra o do sistema de eventos aos modernos sistemas operacionais e a evolu o das linguagens de programa o o padr o MVC perdeu um pouco da sua utilidade original e muitas varia es foram propostas a organiza o das classes Esse padr o se torna muito til quando um mesmo dado model pode ser visualizado de formas diversas views Por exemplo um conjunto de valores pode ser apresentado em uma planilha eletr nica como uma tabela ou como um gr fico A tabela e o gr fico s o duas apresenta es para o mesmo modelo Para este trabalho de Disserta o o pattern MVC est
151. em Unificada de Modelagem UML Unified Modeling Language padr o de fato adotado pelo OMG Object Management Group ou Grupo de Gerenciamento de Objetos em janeiro de 1997 em resposta sua pr pria solicita o de propostas para uma linguagem padr o de modelagem A UML na verdade resultado da unifica o de tr s m todos bastante utilizados na poca Booch de Grady Booch da Rational Software Corporation OOSE Object Oriented Software Engineering de Ivar Jacobson da Objectory e OMT Object Modeling Technique de James Rumbaugh da General Electrics 123 A UML uma linguagem gr fica para visualiza o especifica o constru o e documenta o de artefatos de sistemas complexos de software Para cobrir todas as etapas do desenvolvimento levantamento de requisitos an lise projeto implementa o e testes s o disponibilizados nove diagramas diagrama de caso de uso diagrama de atividades diagrama de sequ ncia diagrama de classes diagrama de colabora o diagrama de objetos diagrama de gr ficos de estados diagrama de componentes e diagrama de implanta o Booch et al 2000 Para esta Disserta o nem todos os diagramas foram utilizados privilegiando se os seguintes a b Diagrama de casos de uso mostra um conjunto de casos de uso e atores e seus relacionamentos Um caso de uso uma descri o de um conjunto de sequ ncias de a es que um sistema executa para produzir
152. em bancos de dados e m todos de corre o de escrita Dist ncia Hamming definida como o n mero de posi es nas quais s o encontrados caracteres divergentes quando duas sequ ncias de mesmo tamanho s o comparadas Diferentemente da medida anterior espa os n o s o permitidos Vide Tabela 3 3 3 Seq ncia s MATO AGCCT AGCCGGCA Segii ncia t ATA ACATA AGACAGTA Dist ncia Hamming s t 2 4 3 Tabela 3 3 3 Dist ncia Hamming entre as seq ncias set Devido ao fato de as medidas de dist ncia n o serem apropriadas para compara o local envolve subsequ ncias e subs ries ou seja estarem restritas apenas a compara o global envolve toda a sequ ncia um caminho alternativo para aplica es biol gicas a similaridade pois esta baseia se sempre em alinhamento Meidanis e Setubal 1997 Na verdade vista sob outro ngulo similaridade o mais alto escore de qualquer alinhamento sendo esse escore do tipo aditivo pois se o alinhamento for particionado em blocos o escore do alinhamento inteiro ser igual soma dos escores dos blocos Seja 2 o alfabeto usado pelas sequ ncias s e t e seja 2 o alfabeto 2 adicionado do caracter que denota um espa o Gusfield 1997 ent o o sistema de escore composto de um par p g cujos membros s o fun es p 2 x 2 gt R e uma penalidade g para os espa os Geralmente esse valor g lt O Isso posto pode se atribuir um valor n
153. en tica gt a gaan i an rna eea E Sa o C Construir alinhamento m ltiplo gt Aplicativo pred estrut 2 ria de prote na Aplicativo de rvore filogen tica Aplicativo de alinhamento m ltiplo Figura 5 11 1 Diagrama dos Casos de Uso do ator Pesquisador 5 11 3 Casos de uso do ator Clock a Executar tarefa a partir dos dados da tarefa agendada o Sistema a executa automaticamente na data prevista salva o resultado no BD pairwise XML e pode enviar por email um aviso ao pesquisador de que a tarefa foi cumprida b Realizar consulta baseada na wish list a partir dos dados constantes na wish list de cada pesquisador o Sistema periodica e automaticamente consulta o BD pairwise XML em busca de informa es mais atualizadas que satisfa am as prefer ncias registradas Em seguida pode enviar ao pesquisador por email o resultado da consulta Na Figura 5 11 2 a seguir apresentado o diagrama dos casos de usos do ator Clock 159 X BD pairwise XML q a R ealizar consulta baseada na wish list a Clock Executar tarefa gt x a o na Servidor de e mail X Aplicativo de alinhamento p airw ise Figura 5 11 2 Diagrama dos Casos de Uso do ator Clock 5 11 4 Prioridade dos casos de uso Os casos de uso j levantados ser o priorizados de acordo com os riscos a necessidade dos usu rios e a complexidade de desenvolvimento A prioriza o dos casos de uso serve de entrada para a elabora
154. eneraliza o do modelo constante sendo que aqui adicionado um valor Ve para cada espa o na lacuna Assim o Vg chamado de valor de inicia o da lacuna pois representa o custo de iniciar a lacuna e o Ve valor de extens o da lacuna porque indica o custo de cada espa o que a comp e Ent o encontrar um alinhamento m ximo poderia ser da forma Vi identidades Va diverg ncias V lacunas ou gaps Ve f espa os O valor para uma nica lacuna de tamanho q dado pela fun o V qVe A vers o dependente de alfabeto de novo atribui s x s x O e tem o objetivo de encontrar um alinhamento A que maximize Z 1 s S 1 i S 2 i V lacunas ou gaps Ve espa os comum usar um valor alto para V entre 10 e 15 por exemplo no contexto da matriz BLOSUMO2 e um valor baixo para Ve entre 1 e 2 53 c Convexa ou c ncava alguns fen menos biol gicos s o mais bem modelados por uma fun o de penalidade de lacuna quando nessa o valor de um espa o adicional contribui menos que aquele do espa o precedente Um exemplo seria a fun o Vg logeg onde q o tamanho da lacuna d Arbitr ria o tipo mais gen rico onde o valor de uma lacuna uma fun o arbitr ria v q do seu tamanho q Todos os modelos anteriores s o subcasos deste 3 3 4 Algoritmos Um enfoque para computar a similaridade entre duas sequ ncias seria gerar todos os poss veis alinhamentos e ent o con
155. ente de amino cidos Pode se distinguir a ordem sequencial e a composi o relativa Y de cada amino cido conforme resultado da etapa de tradu o da s ntese de prote na A conven o para se escrever a sequ ncia da esquerda amino cido com um grupo amino alfa livre esquerda amino terminus para a direita amino cido com um grupo carboxil livre a direita carboxy terminus Por exemplo os 30 primeiros amino cidos da hexoquinase hexoquinase de levedura da esp cie Saccharomyces cerevisiae AASXDXSLVEVHXXVFIVPPXILQAVVSIA b Secund rio resulta da liga o dos res duos de amino cidos por pontes de hidrog nio dando origem aos tipos h lice a parte externa da proteina fita B parte interna da proteina segmentos circulares em volta e h lice tripla de col geno c Terci rio enovelamento tridimensional da estrutura e ocorre quando certas atra es est o presentes entre h lice a e fita B S o mostrados outros exemplos nas Figuras 3 1 6 e 3 1 7 a seguir xiv Mais detalhes em Brookhaven Protein Data Bank 3D browser ou SCOP Structural Classification of Proteins n mero PDB de refer ncia 1HKG 2i d Quatern rio associa o de subunidades de polipept deos em uma configura o geom trica definida Se essa associa o composta de apenas uma subunidade ela chamada de mon mero Caso sejam m ltiplas subunidades constituir ent o um olig mero podendo ser de composi o igua
156. entes Na menor h apenas um rRNA e na maior dois Essas subunidades est o separadas no citosol e s se unem para a sintese prot ica RNA transportador tRNA pequenas mol culas de RNA que agem como mol culas adaptadoras durante o processo de s ntese de proteina etapa tradu o Cada tRNA cont m em uma das extremidades um segmento espec fico de tr s bases chamado antic don o qual se liga ao seu complementar c don no mRNA e na outra extremidade um s tio ligante para um amino cido espec fico A import ncia do RNA est diretamente ligada ocorr ncia da s ntese de proteina sendo o intermedi rio entre o DNA e essa 3 1 3 Prote nas I Amino cidos Constituem os principais blocos formadores das prote nas e s o incorporados a essas na etapa de tradu o do processo de s ntese Cada amino cido compartilha uma estrutura b sica Figura 3 1 4 consistindo de um carbono central alfa Ca um grupo amino NH3 em uma extremidade um grupo carboxil COOH noutra extremidade e um grupo R radical que diferencia e determina as propriedades f sicas e qu micas da mol cula Meidanis e Setubal 1997 Grupo R l Carbono central regi o vari vel Grupo carboxil Grupo amino Figura 3 1 4 Estrutura qu mica do amino cido Os carbonos est o na cor verde os oxig nios em vermelho o nitrog nio em azul e os hidrog nios na cor branc
157. ento real do software para a Rede Biofoco gra as s suas principais caracter sticas a Orientado a caso de uso esses casos foram utilizados como o principal artefato para o estabelecimento do comportamento desejado do Sistema para a verifica o e a valida o da arquitetura para a realiza o de testes e para a comunica o entre os participantes do projeto b Centrado na arquitetura a arquitetura est sendo utilizada como principal artefato para conceitua o constru o gerenciamento e evolu o do Sistema que ainda se encontra em desenvolvimento c Iterativo e incremental iterativo porque tem envolvido o gerenciamento de sequ ncias de vers es prelimares execut veis partindo das funcionalidades mais priorit rias por exemplo Visualizar alinhamento pairwise incremental porque tem envolvido a integra o cont nua da arquitetura do Sistema para a produ o dessas vers es de maneira que cada nova vers o vem incorporando os aprimoramentos em rela o s anteriores Tamb m est orientado a riscos ou seja cada nova vers o tem como foco atacar e reduzir OS riscos mais significativos para o sucesso do projeto A cada fase novos riscos podem ser detectados O Processo Unificado um modelo bidimensional composto por quatro fases e suas itera es e ciclos de desenvolvimento e seus nove fluxos de trabalho Figura 4 2 1 Uma fase o intervalo de tempo decorrido entre dois importantes marcos do pro
158. erea a a o Eras 1 1 1 ORGANIZA O DO TRABALHO rara 6 2 OBJETO DA PEOQUIS ns Ss RSA ad eai A a E CO RS DR rd T 2 1 MO MA O o renal ste a a a A a T 2 2 OBJETIVOS OUIPROPOSI ES assa sisnesdisniis der Raa iai Saga UMA 12 2 2 1 Objetivo Geral ea Saad SD E 12 2 2 2 Objetiv s CSPOCITICOS asc SG O 13 3 REFERENCIAL TE RICO DE BIOLOGIA MOLECULAR COMPUTACIONAL 15 3 1 NO ES B SICAS DE BIOLOGIA MOLECULAR 15 3 1 1 ACE a cias sa a a da RR Sa a 15 SD ACOs ceCa O O A GD 16 l DNA cessaria oa E E E a co A Sa 16 Il RNA aE do AD a A A A a a A E E 20 3 1 3 Proteinas saana a A a a A TA 21 l AMINOACICOS aaa a a a a a Da A A 21 II Prote nas defini o fun es e Estrutura sisaan e a a a a re eaarenanna 24 314 O Dogma Central REVISaAdO suada sa a a UE A ATE 28 3 2 COMPARA O DE SEQU NCIAS E BUSCA EM BANCO DE DADOS 33 3 2 1 Tipos de compara o e a import ncia da busca em bancos de dados 33 3 2 2 o Imilaridade e Homologia sarsi So Danas E Dia dd Dada sDo e dada Bu aho Ao DS ado Re Dinda aaa dae 37 dZo Tipos de Homolog ist sinta dana DaDih a Ds a 40 3 3 METODOS DE ALINHAMENTO 41 3 3 1 Medidas de dist ncia e similaridade eee reer aeee era aeee rre aerea 41 3 3 2 Principais m todos de alinhamento e alinhamento pairwise n00nnnannnnnnennnannnnnnnnnnnnnennnnnnni 45 3 3 3 A import ncia evolutiva dos gaps e suas fun es de penalidade
159. expect gt lt Parameters sc match gt 1 lt Parameters sc match gt lt Parameters sc mismatch gt 3 lt Parameters sc mismatch gt lt Parameters gap open gt 5 lt Parameters gap open gt lt Parameters gap extend gt 2 lt Parameters gap extend gt lt Parameters filter gt L lt Parameters filter gt lt Parameters gt lt BlastOutput param gt lt BlastOutput iterations gt lt Iteration gt lt Iteration iter num gt 1 lt lteration iter num gt lt Iteration hits gt lt Hit gt lt Hit num gt 1 lt Hit num gt lt Hit id gt 9i 22477517 gb BC037097 1 lt Hit id gt lt Hit def gt Mus musculus clone MGC 46891 IMAGE 5345693 mRNA complete cds lt Hit def gt lt Hit accession gt BC037097 lt Hit accession gt lt Hit len gt 2732 lt Hit len gt lt Hit hsps gt lt Hsp gt lt Hsp num gt 1 lt Hsp num gt lt Hsp bit score gt 811 277 lt Hsp bit score gt lt Hsp score gt 409 lt Hsp score gt lt Hsp evalue gt 0 lt Hsp evalue gt lt Hsp query from gt 34 lt Hsp query from gt lt Hsp query to gt 446 lt Hsp query to gt lt Hsp hit from gt 2077 lt Hsp hit from gt 191 lt Hsp hit to gt 2489 lt Hsp hit to gt lt Hsp query frame gt 1 lt Hsp query frame gt lt Hsp hit frame gt 1 lt Hsp hit frame gt lt Hsp identity gt 412 lt Hsp identity gt lt Hsp positive gt 412 lt Hsp positive gt lt Hsp align len gt 413 lt Hsp align len gt lt Hsp qsegq gt 6GCAGAGACCGTCGGCCGTGAGGTGTTTGCAGCATATCACTCTG CTGTAATCAGT
160. f bicos e 66 serina por treonina ambos polares Outras propriedades tais como tend ncia de se ligar a mol culas de gua hidrofilia tamb m influenciam a probabilidade de substitui o m tua Devido a essas caracter sticas das compara es de prote nas importante usar um esquema de escore que reflita as probabilidades tanto quanto poss vel as identidades devem receber escores maiores que as substitui es sendo que s conservativas devem se atribuir valores mais significativos que s n o conservativas Baxevanis e Ouellette 2001 Al m do mais diferentes conjuntos de valores podem ser requeridos para comparar seq ncias muito similares gene do camundongo e seu hom logo ratazana em oposi o quelas altamente divergentes genes de camundongo e levedura Essas considera es podem ser tratadas de uma maneira mais flex vel pelo uso de uma matriz de substitui o na qual o escore de um par aleat rio de amino cidos pode ser facilmente encontrado As matrizes mais efetivas s o baseadas em uma observa o direta das frequ ncias atuais de substitui o dos diversos pares de res duos entre proteinas relacionadas sendo esse caminho apontado como o melhor para derivar escores de similaridades Pearson 2001 Por isso as matrizes de escores podem diferir de tr s maneiras a o m todo pelo qual s o constru das b o conte do da informa o o qual est relacionado o n mero de res duos que deve ser
161. foi ben fica ao organismo ou pelo menos n o se mostrou letal Express es regulares segundo http www oreilly com catalog regex desc html s o ferramentas para manipular segmentos de textos e dados que seguem um determinado padr o Pfam ou Protein Family Database em ingl s de Alinhamentos e HMMs segundo InterPro 2001 uma grande cole o de alinhamentos m ltiplos de sequ ncias e modelos ocultos de Markov HMM envolvendo diversos dom nios comuns de prote nas 9 PRINTS ou Protein Fingerprint Database em ingl s segundo InterPro 2001 um comp ndio de Impress es digitais de proteinas Uma impress o um grupo de motivos conservados usados para caracterizar uma fam lia de proteinas e seu poder de diagn stico refinado por uma varredura 1terativa de um composto de SWISS PROT SP TrEMBL Geralmente os motivos n o se sobrep em mas est o separados ao longo da sequ ncia embora possam ser cont guos em um espa o tridimensional Essas impress es podem codificar o enovelamento e as funcionalidades de uma prote na mais flexivelmente que um simples motivo pois a pot ncia de seu diagn stico completo deriva do contexto m tuo permitido pelos motivos vizinhos l ProDom ou The Protein Domain Database em ingl s segundo InterPro 2001 um banco de dados de prote nas que consiste de uma compila o autom tica de dom nios hom logos As vers es correntes s o constru das utilizando u
162. ga como co autor de trabalho definida pela sua participa o intelectual na cria o do conhecimento conforme as normas universalmente aceitas pelos rg os governamentais e pelo Minist rio da Ci ncia e Tecnologia 5 2 PLANO DE DESENVOLVIMENTO Fase In cio Fim Objetivos Crit rio de aceita o Identifica o do problema do usu rio Identifica o das necessidades do usu rio Realiza o de estimativas superficiais An lise da viabilidade t cnica e Concord ncia entre econ mica do produto clientes e equipe de Concep o 01 09 02 31 10 02 Proposi o de um esbo o para a desenvolvimento sobre arquitetura escopo e estimativas Elabora o do plano de desenvolvimento superficiais do projeto de software Detalhamento dos casos de uso mais significativos Planejamento da fase de Elabora o Defini o de uma arquitetura est vel arquitetura deve Detalhamento da maior parte dos casos estar validada e Elabora o 01 11 02 20 02 03 S USO a implementada Apresenta o de estimativas mais Concord ncia entre precisas para o projeto os interessados sobre Planejamento da fase de Constru o prazos e custos Continua o do detalhamento dos O produto deve estar Constru o 21 02 03 04 04 04 demais casos de uso promo Palio SE Implementa o dos casos de uso disponibilizado Planejamento da fase de Transi o Transi
163. gtfinherrericPirvise encProjeto hit pio n adute reuring ara query cxdProjeto E QreeteAdio gt Pres Ai setfignirentata setAtigreriHader E setHrizntaiBavaue n selVerticABervdue 3 7 seicamidh a SetinidaRievdue gt Dsi es ealuete reuring araquery arge E N ptsradesaiczo og GEQdertifcaion oorFcjeto terei l ealuete reuring araquery arge A iate gt rmen pe al Emite adute reurirg gray fics con fenda Bas Non Pre Seane Esmpirt Ms fifoFermeliminestrno pise Glicanobet o Addana x Qicasmumbd o link QreeteAdin gt depia Clicanobot o Filtra CheteActim par gt Inema lgm EE E SS ER Et ratos K curte nming arg d Lo fimRenitab Echefrane tep pint paciente Vi o 177 edgerdrigaa kacaian edgerdrigas Figura 0 1 Sistema BLOOM diagrama de seqii ncia do cen rio Construir alinhamento m ltiplo 178 rearel eio Gira Gain Arenes Appia edute rdurirg araf Gain edute re
164. gual soma desses tamanhos Meidanis e Setubal 1997 Algoritmo Align Alinhamento entrada ndices j e a matriz a do algoritmo Similaridade sa da alinhamento nos vetores align s e align t e o tamanho do alinhamento len 1fi 0 and j 0 then len 0 else ifi gt 0 and ali j a i 1 j g then Align i 1 j len len len 1 align s len s i align t len lt else if gt 0 and j gt 0 and qa i j a i 1 j 1 p i j then Align i 1 j 1 len len len 1 align s len s i align t len tij deve ser j gt 0ealijl ali j l l g Align i j 1 len len len 1 align s len align t len tij Figura 3 3 10 Um exemplo de algoritmo pseudoc digo para calcular o alinhamento timo em programa o din mica 62 Dentre outros autores Baxevanis e Ouellette 2001 mencionam que podem existir diversos alinhamentos para um mesmo par de sequ ncias No entanto o algoritmo Align Figura 3 3 10 extra do de Meidanis e Setubal 1997 retorna apenas um deles pela prefer ncia anti hor ria das setas na ordem vertical diagonal e horizontal conforme se observa na Figura 3 3 11 Prefer ncia m xima Prefer ncia minima Figura 3 3 11 Prefer ncia anti hor ria das setas no rastreamento reverso Dessa forma o alinhamento timo retornado pelo algoritmo tem as seguintes caracter sticas quando houver escolha uma coluna
165. habitantes no ano 2000 Plantas e pat genos o paradigma da Red Queen e projeto genoma Na famosa hist ria infantil Alice no pa s das maravilhas de Lewis Caroll h uma curiosa passagem em que a personagem corre corre corre mas tudo ao seu redor tamb m corre Ou seja uma corrida para n o se sair do lugar Dessa passagem surgiu 97 o paradigma ou hip tese da Red Queen largamente utilizado em perspectiva evolutiva para se comparar o que ocorre entre hospedeiros e pat genos por mais que os hospedeiros corram para buscar novas estrat gias para escapar dos seus algozes os pat genos sempre acabam encontrando formas de superar a resist ncia conseguida pelos primeiros uma corrida sem fim mas que deve ser disputada e o papel da ci ncia nessa corrida o de prover uma dianteira para os hospedeiros Pereira 2001 Com esse objetivo a ci ncia apresenta duas necessidades a entender os competidores e a se encaixa a ci ncia b sica na qual se inclue o projeto genoma e b gera o de estrat gias capazes de interferir com os competidores quer seja para prejudic los como o uso de fungicidas herbicidas e pesticidas ou para auxili los como acontece com a aplica o de adubos ou o melhoramento gen tico Nesse ultimo caso incluem se al m do m todo convencional os controversos transg nicos aos quais um projeto genoma muitas vezes erroneamente associado Etapas e t cnicas a
166. hamento global Ent o simplificadamente para as subsequ ncias abaixo um escore v lido seria atribuir por exemplo o valor 2 para as identidades ou matchs M 2 para as diverg ncias ou mismatchs D 1 para o par que contiver espa o ou tra o T e ignorar os caracteres que estiverem fora dos limites das subsequ ncias de interesse I baseado em Gusfield 1997 a Alinhar as subsequ ncias a AXABCS e 6 AXBACS de s PQRAXABCSTVO e t XYAXBACSLL respectivamente Tabela 3 3 6 Tabela 3 3 6 Alinhamento local entre as seqii ncias s PQRAXABCSTVOQ e XYAXBACSLL 49 Semiglobal Meidanis e Setubal 1997 adota a mesma estrat gia do alinhamento global apenas com a exce o de que o escore pode ignorar alguns dos espa os antes do primeiro e depois do ltimo caracter da sequ ncia fazendo com que o resultado n o seja prejudicado pela presen a desses espa os que apenas visam a igualar o tamanho das duas sequ ncias como se pode ver a seguir a Alinhar as sequ ncias s CAGCACTTGGATTCTCGG t CAGCGTGG Tabelas 3 3 7 e 3 3 8 Tabela 3 3 7 Alinhamento semiglobal 1 entre as segii ncias s CAGCACTTGGATTCTCGG e t CAGCGTGGS Tabela 3 3 8 Alinhamento semiglobal 2 entre as segii ncias s CAGCACTTGGATTCTCGG e t CAGCGTGGS Com rela o a todos os m todos de alinhamento acima ilustrativamente foi usado um escore bastante simplificado e que at pode ser adotado para sequ ncias de DNA
167. http salilab org modeller modeller html vi EJBQL Enterprise Java Bean Query Language ou Linguagem de Consulta para EJB Vide http www javaworld com javaworld jw 03 2002 jw 0301 dao html x JIDOQL Java Data Object Query Language ou Linguagem de Consulta para Objetos Java de Dados Vide http www fawcette com javapro 2002 07 magazime features djordan default asp f g h Dn dd e 184 Melhorar performance do Sistema pela utiliza o de XML para persist ncia de dados dos Servi os de Parametriza o e de Filtragem Esses atributos est o sendo mantidos atualmente em tabelas relacionais Os arquivos XML ser o compactados no jar da aplica o e ao fazer o download do Sistema o usu rio ter acesso local a esses dados Estudar detalhadamente os diversos formatos de sequ ncias para implementar o fa ade de cada ferramenta externa a ser integrada plataforma do Sistema Utilizar o recurso de Internationalization da linguagem Java para disponibilizar vers es do Sistema tamb m em ingl s e espanhol Aprofundar o estudo dos componentes do kit BlastView e da biblioteca BioJava 185 9 REFER NCIAS BIBLIOGR FICAS Allamaraju 2000 Allamaraju Subrahmanyam et al Professional Java Server Programming J2EE Edition Computer Science Wrox Press Ltd 2000 Altschul e outros 1997 Altschul Stephen F Madden Thomas L Sch ffer Alejandro Zhang A Jinghui Zhang Zheng Miller Webb e Lipman David
168. ia da oa anita 158 511 4 Prioridade dosCasos de ISO sanada ati a DS ss a 159 5 11 5 Detalhamento de alguns casos de USO e eereerereren rrenan erena er aaam rena nerananena 160 l Visualizar alinhamento pairwise errar erra era n aerea rena re acre acena eae aeee aerea nando 160 Il Construir alinhamento m ltiplo 00n000na0annnannoaannoannnannonnnnonnonnrernrernnernnrernreranrrnnnnrnernnrernrrrnnernnne 163 III Predizer estrutura secund ria de proteina eee erre rare rer erre an renanna 165 IV Derivar rvore filogen tica eee eeeerrerereren ee errae aa ceren aa erene na cr ea na erene na cenenda 167 5 12 DISTRIBUI O DAS ITERA ES sisal died Sd ni Dad 170 5 13 VISAO DE PROJETO ai a e O iai 172 Dol Diagramas de classes gain da Gai dna ad SRS da 172 5 132 Diagiamas qe Intera o in as E dad a a 174 l Diagramas de SEQUENCIA scurs De is E R 174 RESULTADOS aus as a ais a Sa Sa Ed a 180 CONCRUS O nos and ai SOS acid SDS a a 182 DESENVOLVIMENTOS FUTUROS as sas alini oia ras A aa dal natal Sen S ala oa de bs sra 183 REFER NCIAS BIBLIOGR FICAS eae neaea aeee rrenan 185 ANEXO ou saco ainda dn a a dO bi O anda E USE a Ea ad A a OR 190 GEOS SARI a ear nada Ra a DR RO RE a CRR EeRAR 198 vil LISTA DE FIGURAS Figura Crescimento do GenBank sanoaren e E Cada te ATE nao ne a E a CEDO DOBRAS rea l Feur LIe Crese mento do PDB se n a E e a A E E 2 Figura 1 1 3
169. id J Lipman em 1985 Meidanis e Setubal 1997 Em 1988 ap s alguns aprimoramentos no algoritmo original surgiu o FASTA A seguir Tabela 3 3 14 uma lista completa dos algoritmos dessa fam lia Pearson 2002 Algoritmo Funcionalidade Compara uma sequ ncia de prote na a outra sequ ncia ou biblioteca de prote na ou compara uma sequ ncia de DNA a outra sequ ncia ou biblioteca Compara uma sequ ncia de proteina a uma sequ ncia ou biblioteca de DNA traduzindo cada sequ ncia de DNA em todos as 6 poss veis janelas frames de leitura 3 para frente e 3 janelas reversas sem altera es na janela de leitura frameshifts e comparando cada janela a uma sequ ncia de prote na Compara uma sequ ncia de DNA a uma sequ ncia de proteina do banco de FASTX dados Traduz a sequ ncia de DNA em 3 janelas com altera es na janela de E leitura FASTY2 permite altera es na janela de leitura dentro dos c dons Compara uma sequ ncia de proteina a uma sequ ncia de DNA do banco de TFASTX dados traduzida com altera es na janela de leitura TFASTY permite TERDAN E altera es na janela de leitura dentro dos c dons Compara uma mistura ordenada de pept deos obtida por exemplo da FASTF degrada o Edman da segmenta o CNBr a um banco de dados de proteina TEASTE ou DNA traduzido Compara uma s rie de pequenos fragmentos de pept deos obtida de uma FASTS an lise de espectometria de massa de
170. iented technologies CORBA UML and RUP in the development of a scientific purpouse tool integration with external utilities and with the Annotation and Genoma Systems and integral reuse of the architecture used in the Genoma System Keywords Bioinformatics Computational molecular biology DNA RNA Protein Sequence comparison Sequence alignment methods Dynamic programming PAM BLOSUM BLAST FAST Protein secondary structure Phylogenetic tree Genome project xiii 1 INTRODU O A Biologia a mais recente das ci ncias naturais Quando os dados coletados chegam a uma densidade cr tica uma ci ncia natural progride da simples coleta para o processamento dessas informa es acumuladas Essa ltima atividade tem se tornado dominante tamb m em outras ci ncias j bastante maduras tais como a F sica na qual predi es e abstra es te ricas desempenham um papel importante devido escassez de novas informa es Kim 2002 At recentemente a maior atividade da Biologia vinha sendo o acumulo de novos dados tanto de laborat rio quanto de campo Por isso o crescimento do volume dessas informa es nos ultimos cinco anos especialmente em n vel molecular tem sido surpreendente A curva de crescimento da informa o armazenada no GenBank http www ncbi nlm nih gov Genbank genbankstats html um dos mais importantes bancos de dados de biologia molecular uma curva exponencial que reproduz perfeitamente a lei
171. ilidades de letras do alfabeto ACGT para cada posi o de uma palavra de tamanho k tuplas 6 ou 4096 poss veis entradas na tabela Quanto a amino cidos t m se 20 20 possibilidades de letras do alfabeto de amino cidos para cada posi o de uma palavra de tamanho k tuplas 2 ou 400 entradas na tabela Para o caso de DNA cada palavra representada como um n mero de base 4 que tamb m o ndice da tabela Cada entrada cont m os offsets onde essa particular combina o de 6 letras ocorre na sequ ncia de busca Desse modo para cada palavra na sequ ncia alvo apenas o dicion rio precisa ser consultado para determinar se e onde a palavra ocorre na sequ ncia de busca Logo em seguida a sequ ncia t tamb m examinada e cada uma de suas k tuplas confrontada com as entradas da tabela de busca Para todas as ocorr ncias comuns o offset correspondente no vetor incrementado A Figura 3 3 15 exibe o conte do final da tabela e do vetor para as sequ ncias s HARFYAAQIVL e t VDMAAQIA poss vel notar que o offset 2 tem o mais alto valor de entrada significando que muitas identidades foram encontradas para ele Meidanis e Setubal 1997 Seqii ncia de busca k tuplas 1 7 a 6 A Seqii ncia do banco de dados offsets 2 8 6 8 7 8 Vetor de offsets O 1 42 43 4 5 6 7 8 9 10 Figura 3 3 15 Primeira etapa do FASTA localiza o dos hot spots k tuplas Baseado em Meidanis e Set
172. incluir todos os descendentes de um ancestral particular Um gr fico que expresse as rela es clad sticas entre grupos chamado de cladograma o qual consiste em uma rvore filogen tica com uma raiz e os organismos separados por bifurca es Para este trabalho alguns dos principais conceitos sobre rvore filogen tica s o Figura 3 7 1 a N s representam unidades taxon micas b Galhos cada galho conecta n s adjacentes Definem as rela es entre os n s em termos de descend ncia e ancestralidade c Tamanho dos galhos frequentemente representa o n mero de mudan as que ocorrem em rela o ao ltimo n s vezes o tamanho irrelavante e a rvore representa apenas a ordem de evolu o d Topologia padr o de ramifica o dos n s e galhos e N s internos Os n s internos representam unidades ancestrais f N s externos representam as unidades taxon micas que est o sendo comparadas Referem se a organismos vivos g OTUs Operational Taxonomic Units ou Unidades Taxon micas Operacionais n vel taxon mico de amostragem selecionado pelo usu rio para h j 117 ser usado no estudo tal como indiv duos popula es esp cies g nero prote nas genes etc Raiz um n ancestral comum de todos os demais n s Uma rvore pode conter ou n o raiz Escala de dist ncia representa o n mero de diferen as entre organismos ou sequ ncias Clado um grupo de organismos que descendem de
173. inhamento res duo a res duo no qual frequente que certas regi es de uma proteina ou talvez alguns amino cidos espec ficos sejam mais altamente conservados que outros o que pode sugerir que esses res duos sejam cruciais para manter a fun o ou a estrutura da prote na Ent o se a sequ ncia biol gica de interesse for codante o m todo a escolher ser sempre a compara o por proteina Por outro lado podem existir posi es que n o sejam significantes para a fun o e que todavia mant m se conservadas por motivos hist ricos Baxevanis e Ouellette 2001 Por isso preciso ter precau o quando s o consideradas sequ ncias de esp cies muito pr ximas porque a similaridade pode muito mais refletir um fator hist rico do que funcional por exemplo a similaridade entre sequ ncias de camundongo mouse e ratazana rat hom logos explicada apenas pelo fato de que essas s ries n o teriam tido tempo suficiente para divergirem de maneira evolutiva Devido a isso embora o alinhamento de sequ ncias possibilite alavancar novos conhecimentos os autores enfatizam que todas as infer ncias devem ser experimentalmente testadas e n o assumidas como corretas apenas com base nas an lises computacionais atualmente dispon veis Um ltimo ponto a ser observado quanto a homologia sua natureza transitiva conforme refor a Pearson 2001 Se por exemplo inferiu se homologia entre as sequ ncias A e B entre Be C e finalme
174. ioquimica metabol html 8 Genealogia segundo o dicion rio Aur lio S culo XXI significa 1 conjunto de descendentes dum indiv duo 2 estudo da origem e forma o do indiv duo ou da esp cie COG Clusters of Orthologous Groups ou Agrupamentos de Grupos Ort logos de prote nas foi delineado pela compara o de sequ ncias de prote nas de 43 genomas completos representando 30 principais linhagens filogen ticas Cada COG consiste de proteinas individuais ou grupos de par logos de no minimo 3 linhagens e assim corresponde a um dom nio conservado Prote nas de 2 genomas eucariotos Drosophila melanogaster e Caenorhabditis elegans foram designadas ao COG e podem ser visualisadas de cada p gina individual COG Vide http www ncbi nim nih gov COG Ou seja bancos de genes classificados de acordo com sua hist ria evolutiva Vide http www 1cb ufmg br lbem aulas grad tge bioinfo bioinfogenomica pdf
175. ios e S tios de Prote nas do qual atualmente s o membros Pfam PRINTS PROSITE ProDom SMART TIGREAMs e SWISS PROT TrEMBL Na vers o 13 0 de agosto de 2001 este reposit rio j armazenava 8656 sequ ncias curtas e altamente conservadas os chamados blocos derivados de aproximadamente 2101 grupos de prote nas BLOCKS 2001 II As matrizes BLOSUM Este modelo foi desenvolvido por Steven e Jorja Henikoff em 1992 paralelamente ao seu trabalho de constru o do banco de dados BLOCKS descrito acima As matrizes BLOSUM possuem uma apresenta o similar s matrizes PAM uma matriz 20 x 20 mas seus desenvolvedores fizeram uso de uma estrat gia diferente e de um conjunto muito maior de dados para estimar as frequ ncias alvos BLC 1999 Os valores das matrizes foram baseados na observa o direta de substitui o de amino cidos de um conjunto de aproximadamente 2000 padr es conservados de amino cidos chamados blocos que atuam como assinaturas das fam lias de prote nas das quais derivam Baxevanis e Ouellette 2001 Esses blocos foram encontrados no banco de dados BLOCKS o qual cont m alinhamentos m ltiplos locais blocos envolvendo sequ ncias distantemente relacionadas ao contr rio do enfoque utilizado pela matriz 74 PAM Embora n o exista nenhum modelo evolucion rio neste caso vantajoso ter dados gerados por observa o direta e n o por extrapola o Cada coluna do
176. iption fac gi 194043 gb 9636 1 MUSHTHTEFE Mmusculus helix loop heli gi z z2z477517 b ECO 037097_1 Mus masculus clone MCC 46891 IMAGE 5345693 mEBNA Length Z3 complete cds Score all bits 409 Expect d Identities 4127 413 95 Alinhamento Strand Plus Plus Query 34 gqgcagagaccgtceggcece gt gaggt gttt gcagcatat cacct ct gct gtaatcagtgtgtcg 23 IIIIIIITIITIIILITIITIILITIITIILIIIILTILILELLITEITIILEILIIELL Z077 gcagagacc gt cggccegyt gaggt gttt gcagcat at cacct ct get gt aat cagt gtgtcg zl36 Figura 1 1 4 Exemplo de resultado da consulta BLAST para uma seq ncia de nucleot deos Fonte www ncbi nlm nih gov Sbjct Nessa rea de gerenciamento dos resultados do BLAST quer sejam seq ncias de nucleot deos ou de amino cidos existe uma demanda crescente por m todos automatizados de an lises b sicas Com certeza j existem pelo menos tr s ferramentas que atendem a esse prop sito WebBlast Finch Suite e BioNavigator A primeira pela tecnologia utilizada j apresenta defici ncias por exemplo informacionais com rela o s ferramentas e aos paradigmas atuais poucos recursos de interatividade e acesso As duas ltimas embora bastante eficazes tornaram se produtos comerciais e seu custo invi vel para muitas empresas inclusive para as institui es que integram a Biofoco 1 1 ORGANIZA O DO TRABALHO Este trabalho est organizado da seguinte fo
177. j que pode ser interpretada como uma substitui o quando sfi tfj Figura 3 3 12 O alinhamento global timo em programa o din mica para as seqii ncias sAAAC e t AGC De baixo para cima o valor do escore 1 igualdade na diagonal 2 gap em t na vertical 1 desigualdade na diagonal 1 igualdade na diagonal 1 armazenado na ltima c lula 4 3 da matriz Quanto ao alinhamento local o caminho timo do pareamento entre as subsequ ncias s AAC e f AGC se estende da posi o 1 0 at a ltima c lula o que pode ser visto na Tabela 3 3 11 e na Figura 3 3 13 a seguir E DRE Tabela 3 3 11 Alinhamento global timo para as seqii ncias s AAAC et AGC 1 parte 2 64 1 Figura 3 3 13 O alinhamento local timo em programa o din mica para as segii ncias sAAAC et AGC O valor do escore 2 1 1 1 1 armazenado na ltima c lula 4 3 da matriz 2 parte 2 Quanto complexidade os algoritmos de programa o din mica utilizados neste tutorial podem ser assim analisados Meidanis e Setubal 1997 Similaridade os dois algoritmos apresentam complexidade O mn tanto para o tempo dispendido quanto para o espa o utilizado pois o n mero de opera es que executam depende essencialmente do n mero de entradas da matriz m x n Em cada um dos usos da estrutura de repeti o for pode se perceber que sempre se est considerando toda a extens o da primei
178. l homo olig mero ou diferenciada hetero olig mero Podem formar estruturas complexas com mais de uma unidade que s o os d meros 2 tr meros 3 tetr meros 4 e at mesmo hex meros 6 por exemplo rubisco ATPase e hemoglobina S o mostrados outros exemplos nas Figuras 3 1 6 e 3 1 7 a seguir Figura 3 1 6 Lado esquerdo estrutura terci ria da hexoquinase Lado direito estrutura quatern ria da hemoglobina com quatro polipept deos sendo dois alfa globima e dois beta globina As partes em vermelho s o grupos hemo complexos de ferro ligados proteina para transportar oxig nio Fonte http esg www mit edu 8001 esgbio Im proteins structure structure html Figura 3 1 7 Lado esquerdo cadeia B da Protein Kinase C Interacting Protein e corresponde estrutura em azul no outro lado Lado direito estrutura quatern ria da mesma prote na H lices s o visualizadas como fitas e fios estendidos de betasheets por setas largas As figuras foram obtidas usando rasmol e o arquivo PDB correspondente PDB ID 1AVS5 armazenado em PDB the Brookhaven Protein Data Bank 28 3 1 4 O Dogma Central revisado Fundado no in cio dos anos 30 pelo f sico John Desmond Bernal o laborat rio de cristalografia do Instituto Cavendish Cambridge Inglaterra reunia um grupo de cientistas interessados em trabalhar com a estrutura cristalogr fica de mol culas Contavam com apoio do diretor do Instituto Sir Lawrence Bragg pr
179. la de DNA e 100 como humanos t m 24 tipos de cromossomos 1 a 22 X e Y deve se sequenciar completamente 24 dessas mol culas avan ando se muitas vezes por longos trechos de DNA repetitivo que s o praticamente imposs veis de sequenciar com perfei o b ESTs Expressed Sequence Tags esta abordagem deixa de lado a id ia de sequenciar todo o DNA de um organismo e busca as regi es da cadeia de nucleot deos que codificam prote nas FAPESP 1999 A t cnica funciona de tr s para a frente os pesquisadores partem n o do DNA gen mico mas de sua transcri o as mol culas de RNA mensageiro A partir delas usando a enzima transcriptase reversa sintetizam em laborat rio fragmentos de DNA cDNAs As sequ ncias obtidas desses fragmentos recebem o nome de EST as etiquetas de sequ ncias expressas O exemplo da nossa esp cie ilustra a vantagem de uma abordagem desse tipo calcula se que apenas cerca de 3 dos 3 bilh es de pares de bases do genoma humano formam genes ou seja comandam a s ntese de RNA e das prote nas que regulam a vida Essa abordagem alternativa que n o exclui a anterior apareceu em 1991 O objetivo das ESTs identificar a presen a de genes expressos associando a etiqueta ao gene e sua fun o atrav s um programa tal como o BLAST que faz busca por homologias Um problema dessa metodologia a dificuldade de se encontrar a condi o correta para se conseguir todos os mRNAs produzi
180. lantam a capacidade de serem tratadas por qualquer que seja a pessoa ou mesmo por um grupo de pessoas Pappas 2002 Para viabilizar a extra o das informa es pertinentes e realmente poder concretizar as potencialidades oriundas de se possuir o genoma completo de um organismo fortaleceu se um ramo da ci ncia surgido no in cio dos anos 80 a Bioinform tica uma modalidade que abrange todos os aspectos de aquisi o processamento armazenamento distribui o an lise e interpreta o da informa o biol gica Tudo ocorre numa estreita sinergia com o paradigma fundamental da biologia molecular a qual postula que a informa o gen tica est armazenada nas sequ ncias de DNA A bioinform tica tamb m auxiliada por diversos algoritmos e procedimentos de matem tica e estat stica Atualmente os tr s usos mais bem sucedidos do computador em biologia s o modelagem de estruturas an lise comparativa de sequ ncias e clonagem in silico que o processo de usar uma busca em bancos de dados existentes para clonar um gene No entanto para esta Disserta o o enfoque estar voltado apenas para o segundo uso Kim 2002 Na an lise comparativa quando pesquisadores decifram os pares de bases de um fragmento gen mico em laborat rio surge imediatamente a pergunta Pappas 2002 Qual seria a fun o celular desta sequ ncia nucleot dica Com isso verifica se que a acumula o em massa de dados gen micos somente
181. linhamento local e global a regi es conservadas ocorrem na mesma ordem em todas as segii ncias e podem ser representadas por um nico alinhamennto global b Algumas regi es conservadas s o duplicadas ou ocorrem em uma ordem diferente ao longo das segii ncias necess rio executar alinhamentos locais para apresentar as similaridades entre todas as regi es conservadas Fonte http www library csi cuny edu davis Bioinfo 326 lectures lect8 lect 8 html O algoritmo de programa o din mica para alinhamento global facilmente generaliz vel ao alinhamento de N sequ ncias Kruskal and Sankoff 1983 No entanto o tempo e a mem ria necess rios para a sua execu o cresce em L n L sendo o comprimento caracter stico e n o n mero de sequ ncias Para valores t picos de L de 1000 este tipo de abordagem torna se impratic vel Rocha 2000 Embora diversos algoritmos de alinhamento m ltiplo tenham sido desenvolvidos nenhum deles ideal Diferentes algoritmos mostram se mais apropriados para um alinhamento do que para outro e o problema computacional continua sendo um obst culo Assim como acontece com o alinhamento pairwise para buscas em banco de dados heuristicas tamb m s o usadas para ganhar velocidade e reduzir o uso de espa o de mem ria Consequentemente n o existe garantia de se encontrar o alinhamento timo na maioria dos casos mas mesmo assim os alinhamentos costumam ser excepcionalmente uteis Bioinfo 326 2
182. linhamento ocorrer com o mesmo escore em quest o ou melhor O p value calculado pelo valor do escore S relativo distribui o esperada dos escores dos HSPs de compara es com sequ ncias aleat rias de mesmo tamanho e mesma composi o como consulta ao banco de dados Os valores mais significativos de p value s o aqueles pr ximos de O zero Vide http www ncbi nim nih gov Education BLASTinfo glossary2 html 10 Qualidade PHRED ou qualidade da base corresponde a um inteiro entre O e 99 e est associada probabilidade de erro de leitura Uma base com qualidade 40 indica que o erro de 1 base em 10 a qualidade o expoente multiplicado por 10 Empiricamente considera se uma base como aceit vel se tiver qualidade de no minimo 20 1 base incorreta em 100 Vide www biotecnologia com br bio b1o28 28 seque pdf Rede Biofoco a Rede de Bioinform tica do Centro Oeste da qual fazem parte a Universidade Cat lica de Bras lia a Embrapa Recursos Gen ticos e a Universidade de Bras lia todas sediadas no Distrito Federal Brasil Proteoma o conjunto de todas as prote nas que interv m nos processos biol gicos de uma esp cie O principal objetivo de projeto prote mico determinar a composi o estrutura e fun es das prote nas ou seja conhecer a fun o dos genes anteriormente descritos Projetos genoma e proteoma est o altamente correlacionados uma vez que a fun o de um gene est norm
183. liz lo test lo e propor melhorias 9 4 DETALHAMENTO OU SENTEN A DO PROBLEMA Escassez de produtos de livre acesso para manipula o de informa es e an lise elementar nos primeiros 1 O problema est gios de matura o de dados de sequ ncias em projetos de mapeamento gen mico Todos os pesquisadores interessados em pesquisa na Afeta quem rea de bioinform tica inclusive os integrantes da Biofoco An lise incompleta ou trabalhosa das sequ ncias de um O impacto disto determinado projeto Uma colica de ce co Reta Facilidade nas an lises e melhor aproveitamento dos E p resultados do BLAST As vers es atuais das ferramentas de livre acesso est o 2 O problema desatualizadas quanto tecnologia apresentam defici ncias informacionais possuem poucos recursos de 143 interatividade e de acesso aos dados Exemplo WebBlast Todos os pesquisadores interessados em pesquisa na Afeta quem rea de bioinform tica inclusive os integrantes da Biofoco Alguns pesquisadores tentam criar solu es pr prias ou adaptar as j existentes e incompletas Outros no entanto devido aos problemas acabam nem utilizando essas ferramentas de apoio Exemplo adapta o do WebBlast para o Sistema Genoma Uma maneira nica e atualizada de tratar os dados Uma solu o de sucesso permitir resultantes de uma consulta BLAST Impossibilidade de filtrar a grande quantidade de sequ ncias similares ob
184. ltragem Link string FerramentaCategoria Nome string ComandoExecutavel string j FacadeDe Execucao ExecutaVariasSequencias boolean l 1 t IDFerramenta string Descricao string TipoParametro Parametro ExecutaDepoisDe integer x AceitaOperadorLogico boolean AceitaOperadorRelacional boolean de sto Agrupado boolean Sistema Sequencial integer Clausula IDRetorno string Nome string Descricao string Descricao string Descricao string IDParametro string Ordem integer IDSistema string Nome string IDClausula string Y None string Uso string SistemaParametro ApoDenado IDSistemaParametro string Noi sirna l TextoDoCampo string Ro DES string IsDefault boolean sin FerramentaParametro ValorInicial string AN IDFerramentaParametro string IsDefault boolean ValorInicial string l TipoSQL TipoObjeto TextoDoCampo string Regex string Figura 5 13 1 Sistema BLOOM diagrama de classes dos servi os parametriza o e filtragem Biblioteca Ss Physicalseq BlastO utput Sa Iteration Iteration S tatistics Iteration Hit 4 QueryIdentification 173 Figura 5 13 2 Sistemas Genoma e BLOOM diagrama de classes de resultado do BLAST comuns a ambos Originalmente esses conjuntos de dados chegam no formato
185. m DNA lixo ou junk DNA em ingl s corresponde aos introns e s sequ ncias repetitivas muitas delas resultantes de pareamento incorreto durante a replica o a o da incorpora o de v rus ou movimenta o de transp sons qualquer segmento m vel de ADN capaz de mudar sua posi o no genoma e que pode ser empregado para neste introduzir material gen tico ex geno micro e minissat lites Citosol sin nimo de citoplasma 200 Prote nas globulares ou fibrosas enquanto as globulares s o tipicamente sol veis em gua ligeiramente esf ricas e bastante enoveladas as fibrosas s o insol veis em gua fisicamente tought e constitu das de estruturas repetidas 3l Sinapse segundo o dicion rio Aur lio S culo XXI significa 1 Histologia conex o entre dois neur nios vizinhos da qual h mais de um tipo segundo as forma es que fazem o contato entre essas c lulas para que se propague o impulso nervoso de uma para outra Motivos ou motifs em ingl s uma pequena regi o conservada n o alterada durante a evolu o na sequ ncia de uma proteina Esses motivos ou padr es s o frequentemente partes altamente conservadas dos dom nios Dom nios uma discreta por o de uma prote na que se enovela independentemente do resto da segii ncia e possui fun o pr pria ORF Open Reading Frame ou Regi o Aberta de Leitura uma seq ncia cont gua do mRNA e possui um c
186. m ort logos e par logos Um ponto importante no caso do alinhamento m ltiplo a valida o do alinhamento local ou global Conforme a Figura 3 5 2 sequ ncias hom logas podem estar conservadas na totalidade do seu comprimento e nesses casos um alinhameto global o mais indicado para comparar sequ ncias divergentes Entretanto em muitos casos a homologia pode estar restrita a uma regi o limitada das sequ ncias pois para muitas proteinas sua organiza o consiste de uma combina o de m dulos discretos que t m sido misturados durante a evolu o Diversos genes codantes s o o resultado de recombina es entre diferentes fragmentos de outros genes A evolu o modular de proteinas tem desempenhado importante papel particularmente nos eucariotos como resultado do embaralhamento de ntrons e xons Multiplas c pias de um certo m dulo podem ser repetidas dentro de uma sequ ncia e um conjunto de m dulos pode ocorrer em diferentes posi es relativas de genes diversos Em tais casos pode n o ser poss vel alinhar sequ ncias em sua totalidade um alinhamento global Consequentemente os alinhamentos poder o ser feitos somente sobre os m dulos hom logos um alinhamento local 107 E ol E a E ESSE TT EA ST RA a L E l a Alinhamento global E FE FE FE A Ea l bj Alinhamento local 11 Bloco conservado Legenda in E e fegi o n o conservada Figura 3 5 2 Exemplo de a
187. m novo procedimento baseado nas buscas recursivas PSI BLAST 2 SMART ou Simple Modular Architecture Research Tool em ingl s segundo InterPro 2001 uma ferramenta simples de pesquisa de arquitetura modular que permite a identifica o e anota o de dominios geneticamente m veis e a an lise de arquiteturas de dom nios TIGRFAMS ou The Institute for Genomic Research Protein Families em ingl s segundo InterPro 2001 uma cole o de fam lias de proteinas retratando curated alinhamentos m ltiplos de sequ ncias modelos ocultos de Markov HMM e anota o que prov uma ferramenta para identificar proteinas funcionalmente relacionadas baseando se na homologia da sequ ncias t Blocos segundo Gusfield 1997 s o pequenos intervalos cont nuos em um alinhamento m ltiplo sem lacunas de sequ ncias de amino cidos gt Heur stica segundo o dicion rio Aur lio S culo XXI significa 1 do latim arte de encontrar descobrir 2 conjunto de regras e m todos que conduzem descoberta inven o e resolu o de 202 problemas 3 metodologia ou algoritmo usada para resolver problemas por m todos que embora n o rigorosos geralmente refletem o conhecimento humano e permitem obter uma solu o satisfat ria Frameshift uma mudan a em como a informa o em um gene traduzida pela c lula Ocorre quando uma muta o de exclus o ou de inser o n o m ltiplo de tr s p
188. m se apenas em dados dos dom nios mais mut veis Al m disso a frequ ncia de altera o de amino cido que requer duas altera es de nucleot deos maior que do que aquela que poderia ocorrer por acaso Embora alinhamento de proteinas relacionadas seja direto e bastante independente do esquema de escore por compara o de s mbolos alinhamentos de proteinas menos relacionadas muito mais especulativo te rico e contrariamente depende do esquema E finalmente as matrizes originais de Dayhoff s o baseadas em um pequeno conjunto de proteinas relacionadas Recentemente esse conjunto foi atualizado para incluir um grupo maior de prote nas vide e 1 Entretanto n o se encontrou informa o adicional para aumentar significativamente a habilidade do sistema de escore para encontrar xxiii membros de mais fam lias de prote nas 3 3 8 BLOSUM Antes de se discutirem as matrizes BLOSUM propriamente ditas ser o tratados os dois bancos de dados envolvidos na sua constru o PROSITE e BLOCKS I O banco de dados PROSITE PROSITE um banco de dados de fam lias e dom nios de prote nas e que est relacionado diretamente ao banco de dados de sequ ncias de prote nas SWISS PROT A sua constru o por Amos Bairoch foi baseada na observa o que enquanto existe um n mero gigantesco de diferentes prote nas a maioria delas pode ser agrupada pela similaridade de suas sequ ncias em um n mero limitado de f
189. m seriam Tabela 3 3 5 Escorel l 1 1 1 1 1 1 1 1 Tabela 3 3 5 Alinhamento global entre as seq ncias s CGGATTAC a t CGGATTCA Local um tipo mais rebuscado de alinhamento e o prop sito encontrar e extrair um ou mais pares de regi es um de cada uma das duas sequ ncias que exibam alta similaridade dadas duas sequ ncias s e t encontrar subsequ ncias a e 6 de s e t respectivamente cuja similaridade seja m xima para todos os pares de subsequ ncias Gusfield 1997 Apesar da import ncia do alinhamento global muitas aplica es biol gicas t m o alinhamento local como sendo muito mais significativo Baxevanis e Ouellette 2001 Isso particularmente verdadeiro nos casos em que longas sequ ncias de DNA s o comparadas desde que apenas algumas se es internas estejam relacionadas sequ ncia de nucleot deos no mRNA sem introns s o comparadas sua sequ ncia gen mica onde cada xon estaria em um alinhamento local distinto dada a natureza modular das prote nas pode se desejar procurar por regi es conservadas e de alta similaridade s tios ativos motivos motifs dom nios estruturas funcionais equivalentes etc separadas por outras que acumulam muta es e n o interferem na funcionalidade quer sejam em fam lias muito diferentes ou em sequ ncias hom logas por exemplo a Gusfield 1997 p 231 nas prote nas codificadas pelos genes homeobox que podem ocorrer em uma larga
190. ma estrutura prim ria sequ ncia e usando regras derivadas de estruturas conhecidas predizer a estrutura secund ria mais prov vel a ser adotada individualmente pelos res duos H alguns atributos a serem assinalados na predi o de estrutura secund ria de proteina a Deduz as posi es mais prov veis de h lices alfa e fitas beta b Confirma rela es funcionais ou estruturais quando a similaridade entre as sequ ncias baixa c Determina a dire o para uma sele o racional de mutantes espec ficos a serem utilizados em estudos laboratoriais mais aprofundados d o fundamento para estudos posteriores baseados em estruturas Predi o de estrutura secund ria vem sendo estudada h quase 25 anos Os primeiros m todos sofriam pela falta de dados As predi es eram executadas em sequ ncias simples ao inv s de fam lias de sequ ncias hom logas existiam relativamente poucas estruturas tridimensionais das quais se podiam derivar par metros Provavelmente os m todos iniciais mais famosos s o aqueles de Chou amp Fasman Garnier Osguthorbe amp Robson GOR and Lim Embora os autores originalmente atribu ssem alta precis o 70 80 sob exames cuidadosos os m todos mostraram apenas um n vel de precis o entre 56 e 60 Russell 2002 A disponibilidade atual de largas fam lias de sequ ncias hom logas revolucionou a predi o de estruturas secund rias M todos tradicionais quando aplicados a fam
191. mant m os dados no BD pairwise XML Ap s logar se no Sistema Genoma o Pesquisador escolhe a op o de Consulta An lise de Sequ ncia Resultados do BLAST e inicia o acesso ao Sistema BLOOM BD pairwise XML o banco de dados que armazena resultados de alinhamento pairwise obtidos pelo uso da ferramenta BLAST no formato XML H tamb m outras d 148 tabelas auxiliares A obten o e o armazenamento pr vios dos dados de alinhamento no BD pairwise XML s o efetuados pelo Sistema Genoma M dulo de anota o possibilita obter os dados de anota o de uma determinada sequ ncia gen mica Esses dados ficam armazenados nos principais bancos de dados de sequ ncias dispon veis na Internet O Sistema automaticamente chamar este M dulo para obter a anota o de cada sequ ncia listada no resultado do alinhamento pairwise Aplicativo de alinhamento m ltiplo uma ferramenta de largo uso e dispon vel na Internet para alinhamento de tr s ou mais sequ ncias de nucleot deos ou amino cidos em busca de similaridade ou homologia entre essas N o necess rio realizar nenhuma busca em bancos de dados de sequ ncias Cada sequ ncia envolvida comparada com todas as demais isto compara o de todas contra todas A partir da apresenta o gr fica do resultado do alinhamento pairwise O pesquisador selecionar as sequ ncias que ser o utilizadas como par metro de entrada para este aplicativo Para t
192. mas uma estrat gia mais elaborada necess ria para compara es de sequ ncias de proteina como ser visto mais adiante pelo uso de matrizes de substitui o as quais levam em conta os eventos mutacionais que causam as chamadas substitui es conservativas Nas buscas em bancos de dados de proteinas necess rio lembrar se de que a habilidade de um m todo em reconhecer sequ ncias distantemente relacionadas sensitividade t o importante quanto evitar aquelas n o relacionadas mesmo com altos escores de similaridade seletividade pois com certeza existem mais do ltimo tipo do que do primeiro e isso tem efeitos dram ticos sobre a qualidade e a performance da 50 busca Calcula se que existam mais de 500 000 sequ ncias de prote nas j armazenadas em bancos de dados enquanto uma t pica fam lia de prote nas tem menos de 100 membros Assim algoritmos de compara o matrizes de substitui o e penalidades de espa os que simplesmente produzam o melhor alinhamento n o s o mais apropriados para buscas em bancos de dados Pearson 2001 7 Conforme alerta Gusfield 1997 a utilidade de um alinhamento afetada pelo esquema de escore utilizado o que bastante percept vel principalmente para os tipos local e global Por exemplo se s identidades atribu do o valor 1 e s diverg ncias e aos espa os zero ent o o alinhamento local timo ser determinado pela subsequ ncia comum mais longa Contra
193. mento do genoma de um determinado organismo e a partir dele pode se delinear a estrat gia a se utilizar 20 II RNA O RNA ou ARN RiboNucleic Acid ou cido Ribonucl ico uma mol cula estruturalmente similar ao DNA exceto pelas seguintes diferen as Meidanis e Setubal 1997 Figura 3 1 3 Bases nitroge nadas Par de bases Cadeia principal de a car e fosfato Figura 3 1 3 RNA e DNA Fonte http www accessexcellence org AB GG rna html a A mol cula de a car a ribose ao inv s da desoxirribose b A timina substitu da pela uracila U que do mesmo modo liga se adenosina c A fita por ser simples n o forma dupla h lice Algumas vezes s o encontradas h lices h bridas RNA DNA tamb m partes de um RNA podem se ligar a outras partes da mesma mol cula por complementariedade A estrutura tridimensional do RNA pode se mostrar at mais variada que a do DNA d Existem diferentes tipos de RNA executando diferentes fun es em uma c lula a saber RNA mensageiro mRNA um molde para a s ntese de prote na etapa de transcri o sendo que cada conjunto de tr s bases chamado c don especifica um certo amino cido na sequ ncia formadora da prote na A fita do mRNA baseada na sequ ncia do DNA complementar 21 RNA riboss mico rRNA junto com mais de 3 dezenas de diferentes prote nas formam os ribossomos Cada ribossomo composto de duas subunidades difer
194. mio Nobel de f sica com apenas 25 anos e cientista pioneiro na admiss o da import ncia das t cnicas de cristalografia A partir de 1947 o laborat rio tornou se uma unidade dedicada ao estudo da estrutura molecular dos sistemas biol gicos Bonato e Bonato 2001 Por isso em 1949 o laborat rio recebeu um novo integrante o f sico Francis Crick para desenvolver seu trabalho de doutorado sobre a estrutura da hemoglobina No entanto o interesse de Crick estava totalmente voltado para a mol cula de DNA Com a chegada do biol go James Watson em 1951 uma parceria foi logo estabelecida pois ambos partilhavam a mesma inquieta o de que seria a mol cula de DNA e n o a de proteina que determinaria as especificidades gen ticas Outros cientistas mostravam se tamb m interessados em decifrar a estrutura do DNA dentre eles Linus Pauling California Institute of Technology Rosalind Franklin e Maurice Wilkens King s College em Londres A partir das pesquisas desses cientistas Watson e Crick juntaram todos os dados dispon veis em uma tentativa de desenvolver um modelo de estrutura de DNA Franklin e Wilkens levaram fotomicrografias de difra o radiogr fica de DNA cristalino sabia se que o DNA era uma mol cula longa e helicoidalmente enrolada como determinou o trabalho de Linus Pauling e havia tamb m os dados de Chargaff de apresenta o do DNA como o material gen tico de c lulas eucariontes UFRJ 2002 Ent o em 1953
195. ml http ca expasy org sprot sprot details html http cogprints ecs soton ac uk bbs Archive bbs pinker html http esg www mit edu 8001 esgbio Im proteins structure structure html http gened emc maricopa edu bio bio181 BIOBK BioBookPROTSYn html http 1smb0O0 sdsc edu tutorials samudrala html http lectures molgen mpg de http hbrary thinkquest org 19926 text tour 18 htm http micro magnet fsu edu aminoacids index html http piopio school nz revin htm http pir georgetown edu cgi bin iproclass nfhist pl n all http research nhgri nih gov software webblast2 biomnformatics webblast article shtml http www accessexcellence org AB GGy central html http www biologianaweb com genomica buscas html http www biologianaweb com Livro2 C4 moldna html http www biologianaweb com navegando prepos html http www blc arizona edu courses bioinformatics blosum html http www blc arizona edu courses bioinformatics dayhoff html http www cbs dtu dk dave roanoke genetics980406 htm http www cosmobram com cosmobras res grego htmlftop http www cs ualberta ca charter segemp notes html http www cut the knot com do you know Strings html http www ddbj nig ac jp ddbjnew relinfo e html http www dkfz heidelberg de tb1 bioinfo Bi1ol index html http www eb1 ac uk embl News news html 189 http www fao org sd R Tdirect R Tre0036 htm topofpage http www fapesp br ciencia47 htm http www fapesp br genoma391 htm
196. n Joseph F Makalowska Izabela e Baxevanis Andreas D WebBLAST 2 0 an integrated solution for organizing and analyzing sequence data Bioinformatics Applications Note Volume 15 N mero 5 P ginas 422 423 USA 1999 Fernandes Matioli 2001 Fernandes Matioli Flora Maria de Campos VIII Simp sio de Citogen tica e Gen tica de Peixes http adi 38 bio 1b usp br sismo index html Site pesquisado em 25 03 2002 Finch 2002 Finch Suite http Awww geospiza com products finch suite index htm Site pesquisado em agosto de 2002 GENTROP 2001 GENTROP Grupo de Pesquisa em Gen tica Molecular e Bioqu mica de Doen as Tropicais Gen tica Molecular fundamento e aplica es Departamento de Gen tica Universidade Federal de Pernambuco Recife PE Brasil http www progene ufpe br Apostilas GENMOLI htm Site pesquisado em 14 09 2001 Gusfield 1997 Gusfield Dan Algoritms on Strings Trees and Sequences Computer Science and Computational Biology Cambridge University Press 1997 Heath e Ramakrishnan 2002 Heath Lenwood S e Ramakrishnan Naren The Emerging Landscape of Bioinformatics Software Systems Computer Volume 35 N mero 7 USA julho de 2002 Hunter 1993 Hunter Lawrence Artificial Intelligence and Molecular Biology MIT Press 1993 InterPro 2001 InterPro ThelnterPro Database mar o de 2002 http www ebi ac uk interpro index html Site pesquisado em 25
197. n o s o necessariamente similares como o caso de proteinas que apresentam pouca similaridade mas mesmo assim possuem fun es e estruturas tridimensionais id nticas Pearson 2001 Por isso se as sequ ncias n o s o hom logas nada se pode concluir a respeito de sua similaridade estrutural mesmo que apresentem altos escores de similaridade Conforme mencionado no t pico anterior um dos principais objetivos do alinhamento de sequ ncias quer sejam de DNA ou de proteina possibilitar ao pesquisador determinar se duas sequ ncias apresentam similaridade suficiente de tal modo que uma infer ncia de homologia seja justificada Pearson 2001 E muitos dos algoritmos e m todos utilizados para proteinas tamb m podem ser usados para sequ ncias de DNA Contudo compara es de DNA geralmente s o menos informativas que aquelas feitas com prote nas Sequ ncias de DNA que n o codificam proteinas ou RNA estruturais por exemplo RNA riboss mico divergem muito rapidamente e dificultam a detec o confi vel de homologias para aquelas que divergiram h mais de 200 milh es de anos o que em contraste n o acontece mesmo com sequ ncias de proteina que tamb m mudem muito rapidamente Tipicamente compara es de sequ ncias de proteina 40 detectam outras que divergiram h 1 bilh o de anos gra as sua caracteristica de manter regi es conservadas para tamb m manter integra a fun o E isso pode ser visto em um al
198. na rea Na verdade inicialmente as metas a e b se traduzem na implementa o dos Sistemas de Anota o em planejamento Genoma conclu do e BLOOM em desenvolvimento O M dulo de Anota o tamb m ser integrado plataforma Todos os aplicativos ser o disponibilizados aos pesquisadores por meio do portal Com a implementa o do Sistema Genoma foram automatizados v rios procedimentos e de modo pioneiro viabilizou se o estudo de genomas por diferentes equipes de pesquisadores em conjunto nas tr s institui es da Biofoco Devido ao crescente interesse dos pesquisadores pelo sistema houve demandas para que os resultados do BLAST fossem apresentados em uma interface gr fica interativa Essas demandas e outras complementa es previstas no Projeto foram agregadas dando origem proposta de desenvolvimento do Sistema BLOOM Al m disso a equipe de clientes apontou dois outros fatores de motiva o inerentes ao projetos genoma realizados nas institui es envolvidas a Existe um grande n mero de aplicativos dispon veis na Internet que executam as diversas an lises propostas neste Trabalho poss vel acess los diretamente em alguma p gina da Internet ou por envio de par metros de linha de comando acesso local A quest o que o pesquisador deve empreender Alguns dos genomas atualmente em estudo s o eucalipto banana caf cacau arroz amendoim ra zes e carrapato Os objetivos s o o melhor
199. nciado no ano de 2000 r pido ciclo de vida 6 semanas da germina o matura o das sementes alta produtividade de sementes disponibilidade de linhas mutantes pesquisada mundialmente por governos laborat rios e universidades Vide www arabidopsis org Modelagem de estruturas a reconstru o tridimensional da forma da prote na por meio de sistemas de Vis o Computacional tendo como entrada as proje es bidimensionais obtidas por microscopia Vide http www dcc ufmg br pos html spg97 anais html omni html Hits segii ncias coincidentes ou similares quela informada como par metro de busca O termo mantido em ingl s para compatibilizar com o vocabul rio frequentemente empregado pelos pesquisadores em bioinform tica no Brasil Escore em bits ou Bit score em ingl s o valor do escore S normalizado para S pela f rmula S lambda S In K In 2 sendo que lambda e K dependem do sistema de escore matriz e gaps Vide http www ncbi nim nih gov Education BLA STinfo glossary2 html E value ou Expectation value em ingl s o n mero de diferentes alinhamentos com escores equivalentes ou melhores que o escore S e conforme esperado poder o ocorrer por acaso em buscas no banco de dados Por ISSO quanto menor O E value mais significante O escore Vide http www ncbi nim nih gov Education BLA STinfo glossary2 html P value ou Probability value em ingl s a probabilidade de um a
200. nifica 1 o componente prot ico da hemoglobina A hemoglobina o transportador de oxig nio em hem cias de vertebrados Sua mol cula um tetr mero e cada subunidade comp em se de uma cadeia polipept dica a globina e um grupo prost tico o heme um pigmento contendo ferro que se combina com o oxig nio e confere mol cula sua capacidade de transportar oxig nio http www virtual epm br cursos genetica htm hemoglo htm Desigualdade triangular um dos axiomas b sicos das medidas de dist ncia interpretado da seguinte forma a dist ncia entre A e B menor que a soma das dist ncias de Aa Ce deC aB 201 Citocromo c segundo o dicion rio Aur lio S culo XXI significa 1 qualquer de certas prote nas que cont m heme e que participam de processos de oxirredu o e transporte de el trons como ocorre p ex na fotossintese e na respira o Mioglobina segundo o dicion rio Michaelis significa 1 hemoglobina do m sculo vermelho Hemoglobina segundo o dicion rio Aur lio S culo XXI significa 1 pigmento existente na hem cia formado por heme e globina e entre cujas fun es est o as de fixa o do oxig nio atmosf rico e sua transfer ncia s c lulas Ainda segundo o dicion rio Aur lio S culo XXI heme significa porfirina grupos vermelho escuros ou p rpura escuros que cont m ferro e unida globina constitui a hemoglobina e que entra tamb m na constitui o de v rios pigmentos
201. nome gov Pages Hyperion DIR VIP Glossary Illustration dna shtml Do lado direito detalhamento da estrutura do DNA Fonte http www nhgri nih gov DIR VIP Glossary Illustration gene2 html As mol culas de DNA costumam ser bastante longas Em c lulas humanas chegam a atingir centenas de milhares de nucleot deos Conforme afirma Hunter 1993 a sequ ncia completa que descreve uma pessoa pode chegar a conter tantos caracteres quanto tr s anos de edi es completas do New York Times aproximadamente 3x109 Para serem acomodadas no n cleo da c lula essas sequ ncias enovelam se pelo aux lio das histonas constituindo por fim o cromossomo Figura 3 1 2 O DNA pode assumir uma variedade de conforma es ou formatos Na maior parte das circunst ncias ele forma a cl ssica h lice dupla chamada B DNA Figura 3 1 2 j em outras circunst ncias entretanto ele pode tornar se muito enovelado ou mesmo inverter a dire o das fitas o Z DNA Essas formas alternativas fazem com que um gene se torne ativo ou n o evidenciando que a geometria da forma B DNA tamb m pode ser explorada pelos mecanismos da c lula Isso pode ser uma importante li o para o cientistas h mais informa o a ser inferida de uma c lula do que aquela dispon vel nos bancos de dados Hunter 1993 18 Cromossomo e crom tides N cleo EF Tel mero Tel mero C lula DNA dupla h lice Figura 3 1 2 A estrutura do cr
202. ntares dos nucleot deos as p ricas Adenosina e Guanina e as pirimid nicas Citosina e Timina Cada nucleot deo consiste de tr s partes uma base nitrogenada uma mol cula de a car a desoxirribose e o res duo de fosfato Cada base projeta se para o interior da h lice a partir dos esqueletos externos de a ucar fosfato ligando se base complementar na fita oposta S o desse modo chamadas bases complementares pois est o sempre ligadas duas a duas A com T e C com G formando pares pares de base ou bp base pair Essa regra de pareamento o que garante a forma o de pontes de hidrog nio duas pontes de hidrog nio entre Ae T e tr s entre Ce G Os nucleot deos s o geralmente abreviados pela primeira letra e escritos em sequ ncia linear da forma CCTATAGGCA por exemplo A sequ ncia de bases xii xiii direcional da extremidade 5 upstream Figura 3 1 1 para a extremidade 3 downstream Segue a i Upstream palavra em ingl s ampla e costumeiramente utilizada no jarg o de biologia 2 Downstream palavra em ingl s ampla e costumeiramente utilizada no jarg o de biologia 17 Deoxyribonucieic Acid DINA Cadeia principal de a car e fosfato Pares de bases Pares de bases Adenosina Bases nitroge nadas Timina Guanina Citosina Figura 3 1 1 A dupla h lice do DNA Do lado esquerdo a fita dupla do DNA e suas bases nitrogenadas Fonte http www ge
203. nte entre C e D ent o A e D tamb m s o hom logas mesmo que n o compartilhem significativa similaridade 3 2 3 Tipos de Homologia Sequ ncias hom logas podem ser divididas em dois grupos a sequ ncias ort logas aquelas que diferem porque s o encontradas em esp cies diferentes mas conservam a mesma fun o e b sequ ncias par logas diferem por causa de um evento de duplica o de gene que faz com que apresentem fun o divergente Pearson 2001 41 Sem uma representa o gr fica e uma explica o mais detalhada da situa o o entendimento pode tornar se confuso para aqueles que n o s o especialistas na rea Por isso um exemplo bastante ilustrativo s o os membros da fam lia de prote na globina de liga o com oxig nio globin oxygen binding protein family que s o ort logos e tamb m par logos Figura 3 2 3 Assim as globinas a do sapo da galinha e do rato s o todas ort logas pois elas diferem devido aos eventos de especia o que deram origem a anf bios aves e roedores Da mesma forma tamb m sucedeu quanto s globinas J a globina a do sapo e a globina B do rato por exemplo s o par logas devido a uma duplica o de gene que criou as subunidades a e B h aproximadamente 600 milh es de anos Pearson 2001 Hom logos mee ra rg ar logos Ort logos Ort logos AL Al Sapo o Galinhao Rato q Rato B Galinha B Sapo B Duplica
204. ntidade de duas sequ ncias pode ser subdividida em analogia e homologia A primeira devido evolu o convergente faz com que haja similaridade funcional e tamb m das sequ ncias sem haver um ancestral comum J a homologia ocorre quando essas 39 sequ ncias compartilham um ancestral comum e apresentam as mesmas fun es e estrutura tridimensional enovelamento quer sejam sequ ncias similares ou n o Isso acontece porque se novas fun es moleculares s o necess rias a Natureza n o as projeta mas simplesmente as produz por evolu o divergente de alguns genes a partir desse ancestral comum conforme afirmou F Jacob Evolution and tinkering Science 196 1161 1166 19 17 a natureza um produtor e n o um engenheiro com uma prancheta em branco Embora os termos similaridade e homologia sejam usados de forma intercambi vel por diversas pessoas eles s o formalmente distintos pois o primeiro possui significado quantitativo enquanto o segundo qualitativo Duas sequ ncias s o muito similares ou pouco similares e podem se atribuir a elas escores probabilidades ou valores estat sticos No entanto duas sequ ncias s o apenas hom logas ou n o Al m disso sequ ncias similares tamb m n o s o necessariamente hom logas existem proteinas que possuem similaridade substancial e total diverg ncia estrutural e funcional ou o caso das sequ ncias an logas citado logo acima Contrariamente sequ ncias hom logas
205. ntinua a ser a abordagem dominante pelo menos no que se refere ao estudo da filogenia Na verdade alinhamento m ltiplo uma generaliza o natural dos casos de alinhamentos que consideram apenas duas sequ ncias pois aqui v rias sequ ncias est o 104 envolvidas e se quer encontrar o melhor caminho para se alinh las simult neamente seja Ss Sk UM conjunto de sequ ncias do mesmo alfabeto e pela inser o de espa os nas sequ ncias envolvidas todas tornam se do mesmo tamanho para viabilizar o alinhamento obedecendo restri o de que um espa o nunca poder estar alinhado a outro Figura 3 5 1 a tentativa de posicionar os res duos em colunas que derivam de um res duo ancestral comum consenso As lacunas gaps representam inser es ou exclus es nas sequ ncias Assim um alinhamento pairwise ou m ltiplo o modelo hipot tico de muta es substitui es inser es e exclus es ocorridas durante a evolu o das sequ ncias Meidanis e Setubal 1997 To cer mA rimos a a TTAC TENTE rima Mee 4 ED Tas Es cielo Dem TATA se Cpo DT AT cmo TIDACSTTGCAATIDT GT YELTITASHAVGTTTE ToToTIsTEAWITASTTSS Figura 3 5 1 Exemplo de alinhamento m ltiplo com sequ ncia consenso Fonte http Awww Jibrary csi cuny edu davis Bioinfo 326 lectures lect8 lect 8 html Duas importantes decis es a serem tomadas quanto a este m todo de alinhamento s o a precisa defini o da qualidade do res
206. nto da pele e ossos pelo col geno proteina fibrosa contra o dos m sculos separa o dos cromossomos na mitose e na migra o de c lulas e Manuten o e express o da informa o g nica em todas as fases da s ntese de uma proteina muitas outras proteinas est o presentes para auxiliar o processo regula o g nica fatores de transcri o dentre outros f Gera o e manuten o dos impulsos nervosos por exemplo as prote nas envolvidas agem como receptoras ou atuam nas sinapses dos neur nios g Controle do crescimento e diferencia o da c lula agem como fatores do crescimento horm nio estimulante da tire ide insulina etc h Defesa do organismo atuam no sistema imunol gico como anticorpos contra infec es virais e bacteriol gicas imunoglobulina Quanto estrutura pode se dizer que os quatro n veis reconhecidos s o constru dos a partir de associa es de dom nios e polipept deos Figura 3 1 5 nesta ordem n vel prim rio secund rio terci rio motivos dom nios grupos de motivos dom nios juntos polipept ideos e quatern rio como se comprova a seguir Bioinfo 326 2002 26 n vel Prim rio n vel Secund rio fita beta n vel Terci rio h lice alfa n vel Quatern rio Figura 3 1 5 Os 4 n veis estruturais de uma proteina cst cuny edu davis Bioinfo 326 lectures AA Proteins AminoAcids htm a Prim rio a sequ ncia de uma corr
207. o melhorias ao Sistema b Em sintonia com o bioinformata dever continuar a pesquisa de novas an lises a serem inclu das na plataforma do Sistema BLOOM As primeiras an lises candidatas s o enviar sequ ncias para modelagem estrutural no Modeller e previs o de dom nios de prote nas c Identificar as possibilidades de reuso dos atuais componentes gr ficos tanto para o Sistema Genoma quanto para o Sistema Anota o As primeiras iniciativas ser o melhorar a visualiza o gr fica da montagem assembling de reads que devem formar contigs e gerar fragmentos que correspondem fisicamente ao cromossomo e localiza o de COGs no Sistema Anota o Tamb m dever haver estudo para emprego dos componentes no mapeamento do genoma estrutural d Para a segunda fase do Sistema BLOOM considerar o emprego de componentes da plataforma J2EE Esses componentes n o foram utilizados na primeira fase devido inexist ncia da Persist ncia Gerenciada pelo Cont iner Container Managed Persistence CMP a qual poderia substituir o servi o de persist ncia de CORBA Outro ponto importante quanto a n o aplica o imediata de J2EE que ainda n o se vislumbra um padr o est vel entre as linguagens de consulta EJBQL e JDOQL e Implementar maneiras teis de disponibilizar os resultados das an lises Duas possibilidades iniciais ser o relat rio impresso ou arquivo de dados em formato texto e PDF i Modeller vide
208. o EMBL Informa es e servi os est o dispon veis no site http ca expasy org sprot sprot details html A caracter stica comum entre esses bancos de dados que eles funcionam como reposit rios permitindo a recupera o de qualquer sequ ncia pela descri o ou pelo n mero de acesso Os registros costumam conter dentre outras informa es uma descri o a sequ ncia propriamente dita o nome cient ficio do organismo fonte coment rios gerais e literatura associada No entanto h um aspecto ainda mais importante que o armazenamento e a transfer ncia de dados Gusfield 1997 que a gera o de novos conhecimentos que esses bancos proporcionam pela busca baseada em similaridade Al m disso muitos desses bancos de dados s o acess veis pela Internet e existem pacotes que possibilitam ao usu rio pesquisar ver e manipular os dados das sequ ncias armazenadas Dois dos mais utilizados desses pacotes s o o GCG Genetics Computer Group e o Standen sendo o primeiro um servi o tarifado oferecido pela iniciativa privada e o segundo de acesso gratuito Embora todos sejam basicamente reposit rios de sequ ncias os bancos de dados diferem bastante em suas linhas de atua o Alguns se especializam em um tipo particular de organismo ou c lula outros se concentram em fun es biol gicas particulares h os que seguem uma terminologia especializada e estilo taxon mico particulares de um subcampo da biologia tamb m h aq
209. o autom tico Megabace ABI 3700 ABI 3100 Iniciando o processo o arquivo obtido do sequenciador o cromatograma submetido ao programa PHRED para se obterem o arquivo no formato FASTA e o arquivo de qualidade da sequ ncia Em seguida executa se o Crossmatch contra o banco de vetor para elimina o de sequ ncias de vetores Ap s isso as sequ ncias de baixa qualidade s o desprezadas e apenas aquelas com tamanho m nimo e qualidade aceit veis s o armazenadas para as quais s o feitas totaliza es de clones na placa clones na biblioteca etc Para finalizar executa se o BLAST para cada uma das novas sequ ncias contra os bancos selecionados para aquele projeto A seguran a dos bancos de dados gerados garantida pelo sistema utilizando contas e senhas pr prias para cada usu rio O sistema GENOMA foi elaborado com a vantagem da linguagem JAVA e sua portabilidade que permite a execu o do programa em sistemas operacionais LINUX WINDOWS e MAC Al m dessa vantagem o Sistema foi montado sob a arquitetura CORBA que define uma plataforma de orienta o de objetos com uma linguagem para descri o de interfaces IDL com mapeamentos padronizados em diversas linguagens para um conjunto de servi os b sicos Devido ao seu porte e metodologia utilizada o Sistema ainda se encontra em desenvolvimento este Sistema que obt m o resultado do BLAST no formato XML faz o marshaling e o unmarshaling das tags resultantes e
210. o de rvore Clicar Retornar Figura 5 11 6 Diagrama de Atividades Derivar rvore filogen tica 5 12 DISTRIBUI O DAS ITERA ES 170 Devido utiliza o do Processo Unificado Rational as quatro fases e suas respectivas itera es est o distribu das conforme a Tabela 5 12 1 a seguir Fase l itera o In cio Fim Atividade __ _ Identifica o do problema do usu rio Identifica o das necessidades do usu rio An lise da oportunidade cient fica do produto DIOS Sb Elabora o do plano de desenvolvimento de software An lise dos resultados da itera o Concep o Identifica o de uma arquitetura candidata Descri o da comunica o com diferentes sistemas 12 01 10 02 31 10 02 Detalhamento do caso de uso Visualizar alinhamento pairwise An lise dos resultados da itera o Planejar a fase de Elabora o Detalhamento do caso de uso Construir alinhamento m ltiplo Detalhamento do caso de uso Predizer estrutura secund ria de proteina 01 11 02 18 12 02 Detalhamento do caso de uso Derivar rvore filogen tica Elabora o An lise e projeto dos servi os de filtragem e de parametriza o An lise dos resultados da itera o An lise projeto implementa o e testes do 01 01 03 20 02 03 caso de uso Visualizar alinhamento pairwise An lise dos resultados da itera o Planejamento da fase de Constru o An lise p
211. o de dados Alinhamentos com algumas lacunas podem ser criados pelo encadeamento de v rias dessas regi es No entanto antes de se estudar a l gica deste algoritmo necess rio introduzir a terminlogia 88 b sica quanto a segmentos e com isso manter a consist ncia da discuss o quanto publica o original do BLAST Meidanis e Setubal 1997 Segmento uma subs rie de uma sequ ncia Par de segmentos dadas duas sequ ncias s e t um par de segmentos entre elas s o duas subs ries de mesmo tamanho cada uma derivada de uma dessas sequ ncias envolvidas Devido ao fato de possuirem o mesmo tamanho pode se formar um alinhamento sem lacunas e sem fun o de penalidade ao qual se pode atribuir um escore utilizando uma matriz de substitui o Segue abaixo um exemplo no qual se determina o escore pela matriz BLOSUMO Escore Tabela 3 3 16 Um par de segmentos com escore determinado pela matriz BLOSUM62 Par de segmentos m ximo local um par de segmentos cujo escore do alinhamento poderia diminuir pela expans o ou redu o desses segmentos em qualquer das dire es esquerda ou direita Gusfield 1997 Par de segmentos m ximo ou segmento m ximo um par de segmentos cujo escore do alinhamento o maior dentre todos aqueles determinados entre as duas sequ ncias envolvidas Esse escore uma medida de similaridade e pode ser computado por programa o din mica mas o BLAST consegue determin
212. o de gene a Gene B Figura 3 2 3 Um exemplo de homologia de segii ncias Baseado em http www ncbi nih gov Education BLASTinfo Orthology html 3 3 M TODOS DE ALINHAMENTO 3 3 1 Medidas de dist ncia e similaridade Antes de se iniciar o estudo dos m todos de alinhamento e os algoritmos utilizados importante compreender dois conceitos que est o ligados compara o de sequ ncias dist ncia e similaridade Enquanto a dist ncia se refere medida de quanto as sequ ncias diferem a similaridade exatamente o oposto ou seja busca o melhor alinhamento entre duas sequ ncias e o escore resultante a medida de quanto se encontrou de identidade 42 Mais precisamente a dist ncia trata as sequ ncias como pontos em um espa o m trico pois associa um valor num rico a cada par de caracteres nessas s ries o que faz com que quanto maior a dist ncia menor a similaridade e vice versa Meidanis e Setubal 1997 Para isso s o assumidos os axiomas b sicos de que o resultado n o pode ser negativo o resultado pode ser zero apenas se as sequ ncias s o id nticas a dist ncia de A aB a mesma de B a A e a dist ncia entre A e B menor que a soma das dist ncias de A aCe deC aB a chamada desigualdade triangular Existem dois tipos de dist ncia Dist ncia Levenshtein ou de edi o Gusfield 1997 primeiramente discutida por V Levenshtein a transforma o de uma sequ ncia em outra po
213. o do perfil isto usando o conhecimento de substitui o para dar escores para amino cidos que ocorrem em certas posi es nas quais n o haviam sido observados Por exemplo se o amino cido Leucina e n o a Isoleucina visto frequentemente em uma dada posi o do alinhamento m ltiplo a Isoleucina mesmo assim poderia receber um alto escore naquela posi o porque esses dois amino cidos possuem propriedades qu micas similares e comumente se substituem Gusfield 1997 73 II O banco de dados BLOCKS BLOCKS um banco de dados de motivos de prote nas derivado inicialmente do PROSITE e desenvolvido por Steven e Jorja Henikoff em 1992 no Centro Fred Hutchinson de Pesquisa do C ncer FHCRC situado na cidade de Seattle em Washington USA Os motivos no BLOCKS s o baseados na similaridade das subsequ ncias mais altamente conservadas em sequ ncias de proteinas distantemente relacionadas mesmo que nenhuma fun o seja conhecida Em contraste os motivos armazenados no PROSITE foram coletados com aten o particular para fun es e estruturas conhecidas de proteinas ou seja espera se que cada um desses motivos tenha um significado biol gico conhecido Gusfield 1997 Desde o ano de 1999 este banco de dados mudou sua estrat gia e vem extraindo suas sequ ncias n o mais de uma nica fonte InterPro 2001 mas de um cons rcio de bancos de dados de prote nas chamado InterPro Recurso Integrado de Fam lias Dom n
214. o do algoritmo de programa o din mica restrito a uma faixa em torno do alinhamento inicial aquele que produziu o initl Meidanis e Setubal 1997 Para buscas envolvendo proteinas 85 com k tuplas 2 uma faixa de 16 res duos usada por defini o se k tuplas for igual a 1 essa faixa ser de 32 res duos Pearson 2001 Na pr tica quando sequ ncias s o verdadeiramente relacionadas o escore otimizado costuma ser muito mais significativo que o escore inicial Essa observa o frequentemente ajuda a distinguir entre bons alinhamentos ocorrendo por acaso e relacionamentos verdadeiros Meidanis e Setubal 1997 Vide Figura 3 3 18 a seguir Figura 3 3 18 Quarta etapa do FASTA determina o do alinhamento timo Baseada em Martins 2000 Calcular as estimativas estat sticas Ap s o c lculo dos 60 000 primeiros escores normalizam se os escores brutos de similaridade usando estimativas para os par metros estat sticos de distribui o extrema de valor A estrat gia padr o determina o escore da similaridade contra o tamanho da biblioteca de sequ ncias e calcula a vari ncia m dia Os valores Z escores normalizados com m dia O e vari ncia 1 s o calculados e o c lculo repetido para sequ ncias do banco de dados com valores Z maiores que 5 0 e menores que 5 0 removidos Pearson 2001 Apresentar o resultado Finalmente o banco de dados ordenado pelos escores opt ou initn e as sequ
215. o em 1990 e com prazo previsto para ser completado em 2005 tem havido crescimento extraordin rio do volume de sequ ncias de nucleot deos e de amino cidos dispon vel em bancos de dados Para que se converta em efetivo benef cio na medicina na biotecnologia na agronomia e em diversas outras reas toda essa informa o gen tica precisa ser processada comparada e analisada o que constitui novos desafios para bioinform tica matem tica e estat stica integrar e disponibilizar esses dados por meio de ferramentas amig veis que permitam a minera o eficiente de informa es pelos especialistas mesmo aqueles pouco afeitos a computadores e a biologia molecular A proposta desta pesquisa integrar o maior n mero poss vel de servi os de an lise de sequ ncias encapsulando os em um nico aplicativo de interface gr fica interativa Inicialmente est o sendo considerados quatro servi os a saber alinhamento pairwise alinhamento m ltiplo predi o de estrutura secund ria de proteina e deriva o de rvore filogen tica Com isso pretende se tornar a an lise gen mica mais acess vel eficiente e simplificada o que permitir aos pesquisadores concentrarem se principalmente na interpreta o biol gica dos resultados Quanto bioinform tica os resultados obtidos nesta pesquisa permitem concluir que o aplicativo em desenvolvimento vem possibilitando aos pesquisadores da Rede Biofoco melhor gerenciamento organiza o e di
216. o est claro a que ponto esses argumentos estat sticos podem ser estendidos para os alinhamentos globais Um outro recente avan o que o enfoque PAM tem sido aplicado para alinhamentos de cidos nucl icos o que levou a duas sugest es a primeira que se a sequ ncia uma regi o codante recomenda se traduzi la para uma sequ ncia de amino cidos antes de se efetuar a busca em banco de dados a segunda e n o menos importante que se for realmente necess rio trabalhar com nucleot deos uma matriz PAM47 47 de diverg ncia a escolha apropriada de escores pois isso corresponderia a um valor 5 para as identidades e 4 para as diverg ncias Sugest es para escores diferenciados de alinhamentos envolvendo transi es e transvers es s o relatadas no artigo de States et al 1991 Devido s estrat gias utilizadas para se construir essa fam lia de matrizes algumas cr ticas t m sido apontadas BLC 1999 J Assume se que cada posi o ocupada por um amino cido igualmente mut vel embora de fato saiba se que os s tios dom nios variem consideravelmente no seu grau de mutabilidade Motivos altamente X DJ States W Gish and S F Altschul Improved sensitivity in nucleic acid database searches using application specific scoring matrices Methods A Companion to Methods in Enzymology 1991 70 conservados de amino cidos s o encontrados em prote nas relacionadas Os valores da matriz PAM baseia
217. ois tipos b sicos de sequ ncia as codantes e as n o codantes Nas primeiras est o os genes que s o sequ ncias de DNA transcritas em mol culas intermedi rias chamadas de RNA mensageiro mRNA que por sua vez ser o traduzidas pelos ribossomos segundo um c digo gen tico cada trinca de nucleot deo corresponde a um amino cido para formar as prote nas Tamb m nessa classe est o inclu dos os genes que codificam tipos espec ficos de RNA como o riboss mico e o transportador O segundo tipo de sequ ncia a n o codante na qual se incluem promotores regi es de import ncia estrutural origens de replica o centr meros tel meros sat lites e o assim chamado precipitadamente de DNA lixo Esse ltimo subtipo corresponde sequ ncia para a qual ainda n o se encontrou fun o definida mas que altamente prov vel que tenha alguma Pereira 2001 Curiosamente quanto maior o conte do de DNA de um determinado organismo maior o conte do de DNA n o codante e portanto menor a densidade de genes Por exemplo na bact ria Escherichia coli com 4 64 Mb foram encontrados 4 397 genes uma m dia de um gene a cada 1 050 bp Nas leveduras em 12 Mb foram localizados cerca de 6 600 genes um gene a cada 1 800 bp e nos humanos com 3 000 Mb foram at agora identificados cerca de 40 000 genes ou seja apenas um gene a cada 75 000 bp O conhecimento desses dados essencial quando se busca realizar o sequencia
218. olados pois uma lacuna pode acontecer devido a um evento mutacional que cause a remo o ou inser o de uma subsequ ncia inteira particularmente em DNA enquanto espa os separados acontecem mais provavelmente devido a eventos distintos e esse acontecimento menos comum que as lacunas Meidanis e Setubal 1997 Alguns exemplos ilustrativos dessas situa es s o Gusfield 1997 crossover desigual unequal crossing over em meiose que causa uma inser o em uma sequ ncia e uma exclus o rec proca na outra DNA slippage durante a replica o onde uma por o do DNA repetida na c pia replicada porque a m quina de replica o se perdeu na fita modelo escorregando para tr s e repetindo uma se o inser o de elementos transpon veis Jumping genes numa sequ ncia de DNA inser es de DNA por retrov rus transloca es de DNA entre cromossomos o alinhamento de um DNA gen mico a um cDNA onde os gaps corresponder o aus ncia dos introns alinhamento de prote nas em que as sequ ncias podem ser bastante similares em v rios intervalos mas diferirem em outros que contenham dom nios espec ficos causando as lacunas Um alinhamento de duas sequ ncias reflete o custo ou a probabilidade de eventos mutacionais necess rios para transformar uma sequ ncia em outra Posto que uma lacuna de mais de um espa o pode ser criada por um nico evento o modelo de O termo em ingl s j faz part
219. omossomo S o mostrados a c lula o n cleo e o cromossomo que inclui as crom tides o tel mero o centr mero as histonas a dupla h lice de DNA e os pares de bases Fonte http www nhgri nih gov DIR VIP Glossary Illustration chromosome html Mais especificamente tamanho composi o e arquitetura dessas longas fitas variam enormemente entre as esp cies Pereira 2001 Por exemplo as bact rias possuem cerca de 2 a 5 milh es Mega de bp Mb organizados normalmente em um cromossomo circular bem diferente dos eucariotos que organizam o seu DNA em alguns cromossomos lineares as leveduras e fungos ditos eucariotos inferiores possuem de 10 a 40 Mb os vermes por volta de 100 Mb nos insetos esse conteudo gira em torno de 300 Mb e o homem possui cerca de 3 bilh es de bp ou 3 Gb As varia es de conte do para os diferentes grupos enorme e a quantidade de DNA de um organismo n o necessariamente reflete a sua complexidade Nas plantas por exemplo a ervilha e o 19 milho possuem cerca de 5 Gb e o trigo 17 Gb Ou seja uma quantidade bem maior do que a presente em humanos A import ncia desse polipept deo atribu da a dois fatores a primeiramente conter a informa o gen tica de todo ser vivo a ser transmitida de uma gera o a outra e n o menos importante b ser o molde para a s ntese de prote na conforme ser explicado no t pico O Dogma Central revisado Dentro de um genoma existem d
220. opostos para outras reas do conhecimento como a arquitetura e urbanismo vide e administra o vide Mangan 1999 Uma observa o pertinente que as bibliotecas da linguagem Java fazem amplo uso de design patterns Consequentemente um bom conhecimento sobre esses padr es auxilia na compreens o dos recursos da linguagem e da programa o orientada a objetos de forma indireta Como os Design patterns resolvem problemas de projeto Alguns princ pios b sicos devem estar muito claros para aqueles que pretendem usar design patterns de forma apropriada Em primeiro lugar importante entender a diferen a entre a classe de um objeto e seu tipo Uma classe define como um objeto implementado enquanto um tipo define apenas a interface de um objeto ou seja qual o conjunto de requisi es que ele capaz de responder Sipert 1998 Tamb m importante entender a diferen a entre heran a de classes e heran a de interface ou subtipo Heran a de classes define a implementa o de um objeto com base na implementa o de outro objeto isto a heran a de classes um mecanismo para compartilhamento de c digo e representa o Por outro lado heran a de interface ou subtipo descreve quando um objeto pode ser usado no lugar de outro Um dos princ pios de projeto reutiliz vel orientado a objetos programar orientado a interface n o implementa o Uma consequ ncia pr tica deste princ
221. orat rio Europeu de Biologia Molecular uma institui o que mant m v rios reposit rios inclusive um banco de dados de DNA chamado Banco de Dados de Sequ ncias de Nucleot deos mantido pelo Instituto Europeu de Bioinform tica EBI em Cambridge UK Tamb m faz parte da Colabora o Internacional dos Bancos de Dados de Sequ ncias de Nucleot deos Seus servi os est o dispon veis no site http www ebi ac uk PIR Protein Identification Resource ou Fonte de Indentifica o de Prote na um banco de dados de sequ ncias de prote nas cooperativamente mantido e distribu do pela Funda o Nacional de Pesquisa Biom dica USA pelo Instituto Martinsried de Sequ ncias de Prote na Europa e pelo Banco de Dados 36 Internacional de Informa o de Prote na Jap o Seus servi os est o dispon veis na p gina http www gdb org f PDB Protein Data Bank ou Banco de Dados de Prote na um reposit rio de estruturas tridimensionais de prote nas Faz parte da Pesquisa Colaborativa para o Cons rcio de Bioinform tica Estrutural RCSB mantida pela Universidade Rutgers de Nova Jersey pelo Centro de Supercomputadores de San Diego SDSC e pelo Instituto Nacional de Padr es e Tecnologia NIST Sua p gina principal http www rcsb org pdb g SWISS PROT um reposit rio de sequ ncias de proteinas mantido sob colabora o do Departamento de Bioqu mica M dica de Genebra e pela Biblioteca de Dados d
222. ornar a execu o mais abrangente ser apresentada uma lista das ferramentas apropriadas sendo que inicialmente ser utilizado apenas o aplicativo ClustalW Qualquer que seja a ferramenta escolhida pelo pesquisador a adequa o aos formatos de entrada e sa da ser tratada pelo pr prio Sistema utilizando o pattern Fa ade Editor de alinhamento m ltiplo uma ferramenta de largo uso e dispon vel na Internet para manipular graficamente o resultado do alinhamento m ltiplo Para tornar a execu o mais abrangente ser apresentada uma lista das ferramentas apropriadas sendo que inicialmente ser utilizado apenas o aplicativo JalView Qualquer que seja a ferramenta escolhida pelo pesquisador a adequa o f g 149 aos formatos de entrada e sa da ser tratada pelo pr prio Sistema utilizando o pattern Fa ade Aplicativo de predi o de estrutura secund ria de prote na uma ferramenta de largo uso e dispon vel na Internet para predizer a estrutura secund ria de uma prote na o in cio do enovelamento em 3D a partir de uma sequ ncia gen mica Conhecer a estrutura pr requisito para um entendimento completo da fun o que essa proteina desempenhar Esse entendimento tem aplica es potenciais em v rios projetos gen micos tais como mapeamento de fun es de prote nas em vias metab licas metabolic pathways para genomas completos e dedu o de rela es evolutivas A partir da ap
223. os do projeto Caso o PosgreSQL n o apresente a disponibilidade desejada podem ser utilizadas tr s alternativas para contornar o problema 1 Contrata o de especialistas no banco de dados para buscar uma otimiza o do servi o 2 Treinamento r pido membros da equipe desenvolvimento administra o do SGBD 3 Identificar uma alternativa de SGBD que apresente baixo custo e suporte os requisitos da aplica o de de para Adequar a arquitetura do software para que seja m nimo o impacto na utiliza o dos diferentes sistemas ou aplicativos Antecipa o do desenvolvimento do mecanismo de comunica o entre o Sistema e os aplicativos externos Caso a implementa o se torne muito complexa utilizar se o modelo relacional de tabelas 153 9 10 ARQUITETURA CANDIDATA 5 10 1 Organiza o do sistema em camadas Para esta fase inicial do desenvolvimento do Sistema est sendo considerando um modelo bastante simples composto por quatro cadamas a saber Figura 5 10 1 a Camada de Apresenta o respons vel por manter as classes relacionadas com a interface gr fica com o usu rio b Camada de Aplica o a camada cujas abstra es correspondem s classes de controle Facade e que s o respons veis por coordenar a sequ ncia de atividades necess rias para a realiza o dos casos de uso c Camada de Dom nio do Problema define o conjunto de classes que s o comuns aos diversos aplicativos p
224. os possua caracter sticas nicas eles podem ser classificados em categorias baseadas em suas propriedades qu micas ditadas pelo Grupo R que a regi o vari vel A classifica o mais geral os subdivide em dois grupos os hidrof licos ou polares que costumam ser encontrados na superf cie da prote na por exemplo glutamina e os hidrof bicos ou n o polares encontrados no interior da prote na por exemplo leucina e isoleucina conforme Tabela 3 1 1 acima Encontrar um grupo polar internamente ou um hidrof bico exposto na superf cie uma indica o certa de que o grupo est envolvido em alguma fun o critica da mol cula pois somente isso justificaria o alto disp ndio de energia para evolutivamente mant los assim Bioinfo 326 2002 Estudos de proteinas sugerem que amino cidos com propriedades similares citadas no par grafo anterior podem mais frequentemente ser substitu dos experimental ou evolutivamente em um certo res duo sem alterar de forma dram tica a fun o ou mesmo a estrutura da proteina o que chamado de substitui o conservativa Por isso algoritmos usados para comparar proteinas sempre usam matrizes que levam em conta essa caracter stica As matrizes mais conhecidas s o PAM 250 e BLOSUM 62 a serem estudadas mais adiante Resumidamente o c digo gen tico pode assim ser mapeado 3 tr s nucleot deos especificam 1 um c don 1 um c don especifica 1 um amino cido 4 quatro
225. os resolvidas com o uso de clones malores sequencia se 05 fragmentos pequenos nos plasm dios para unir 05 contigs de plasm dios atrav s da sobreposi o das sequ ncias pequenas o Sequenciamento de extremidades de monta se a sequ ncia dos clones grandes 05 quais mol culas de tamanho grande e quando sobrepostos montar do a seg ncia do conhecido v o ornentando a montagem cromossomo original final do cromossomo Figura 3 4 1 Sequenciamento por clonagem hier rquica e por shotgun Fonte http www 1cb ufmg br Ibem aulas grad tge bioinfo bioinfogenomica pdf Para executar essa montagem feita pela superposi o das sequ ncias dos v rios clones novas ferramentas da bioinform tica foram constru das para an lise das milhares de sequ ncias de DNA geradas pelo sequenciador autom tico PHRED e PHRAP O PHRED verifica a qualidade do sequenciamento de cada base das v rias sequ ncias j o PHRAP faz o alinhamento de todos os clones construindo uma sequ ncia continua ou contig No final v rios contigs ir o compor um grande contig que pode ser a fita de DNA completa de um cromossomo de bact ria que na maioria dos casos o seu genoma completo Para a montagem final v rias outras ferramentas foram desenvolvidas para manipula o e ordenamento de grandes contigs bem como a visualiza o do mapa final com toda a anota o funcional Ex Mummy e Assembler do TIGR Nos eucariotos cada cromossomo possui uma mol cu
226. ossibilidades Ou seja l que est o escritas as instru es para o funcionamento das c lulas Pereira 2001 Se se considerasse uma c lula como um computador poder se ia dizer que a realiza o de um projeto genoma equivale a vasculhar a m quina em busca dos programas que essa tem instalado no seu hardware Entretanto essa identifica o n o traz informa es sobre os programas que efetivamente est o rodando em um determinando momento ou sob uma determinada condi o Por isso al m de descobrir os genes que um determinado organismo possui um projeto genoma tamb m pretende desvendar funcionamento express o e fun o desses Devido s previs es de que o planeta receber 2 5 bilh es de novos habitantes nos pr ximos 25 anos e que os pa ses em desenvolvimento necessitar o dobrar sua produ o de alimentos um projeto genoma pode ser por exemplo a sa da para vencer os fatores biol gicos que influenciam negativamente o aumento dessa produ o perdas provocadas 96 por pragas e doen as Estima se que 40 e 20 da produ o agr cola em pa ses em desenvolvimento e desenvolvidos respectivamente perdida devido a a o de pragas e pat genos Desses um ter o pela a o de v rus fungos e bact rias Al m desses fatores tamb m existem as barreiras hidrogeogr ficas ou fatores f sicos como o suprimento de gua doce e a exist ncia de terras agricultur veis contra as quais h pouco a ser feito
227. ot o Retornar para retornar tela anterior que a de An lise de sequ ncia Fluxo alternativo de eventos 2a O sistema detecta que o login n o est cadastrado emite uma mensagem de alerta ao usu rio e o instrui a procurar o administrador da rede ou do sistema 4a O sistema n o prossegue e emite um alerta de que n o h resultado XML armazenado para a sequ ncia escolhida O usu rio pode tentar outras sequ ncias da O sistema n o prossegue e emite um alerta de que o usu rio se esqueceu de selecionar o subconjunto de sequ ncias Ponto de extens o O pesquisador pode tamb m solicitar para uma data posterior a reexecu o desse alinhamento pelo agendamento da tarefa extend Incluir tarefa P s condi es 1 Se o pesquisador optou por agendar uma tarefa essa transa o deve ser finalizada com sucesso 2 Um subconjunto de sequ ncias deve estar selecionado para que seja poss vel executar outros aplicativos em seguida a partir da tela atual Segue o diagrama de atividades correspondente Figura 5 11 3 162 ACESSAR outro acesso Clicar no cone do Sistema Genoma O vers o desatualizada vers o atualizada Informar login e senha Acessar op o Consulta Baixar aplicativo e Java WebStart 0 1 acesso Java WebStart atualiza automaticamente o aplicativo Selecionar projeto biblioteca placa clone e op o An lise de segii ncia
228. ote na citocromo cf tem quase o mesmo tamanho na maioria dos organismos que a produzem e espera se ver a rela o entre citocromos de duas esp cies diferentes na totalidade das duas sequ ncias O mesmo tamb m se aplica para prote nas da fam lia globina tais como mioglobina e hemoglobina Gusfield 1997 E Baxevanis e Ouellette 2001 concluem que esse tipo de alinhamento mesmo apropriado para proteinas que consistam de apenas um nico dom nio ou para aquelas hom logas e que n o tenham divergido substancialmente Pode se adotar um escore para cada alinhamento e o maior valor determinar o grau de similaridade entre as duas sequ ncias sendo um valor positivo para cada par de caracteres id nticos match um valor negativo para cada par de caracteres divergentes mismatch e um ltimo tamb m negativo para o par que contiver um espa o space ou seja recompensam se as identidades e penalizam se as diverg ncias e espa os Meidanis e Setubal 1997 Para os exemplos abaixo um escore v lido seria atribuir o valor 1 para as identidades ou matchs M 1 para as diverg ncias ou mismatchs D e 2 para o par que contiver espa o ou tra o T a Para se alinhar s LEITOR a t ESCRITOR duas possibilidades seriam Tabela 3 3 4 MMMM REENE Tabela 3 3 4 Alinhamento global entre as seq ncias s LEITOR a t ESCRITOR 47 b Para se alinhar s CGGATTAC a 1t CGGATTCA duas possibilidades tamb
229. pelo menos uma palavra que seja comum a ambas As ocorr ncias podem ser identificadas de modo muito r pido pela pr indexa o de todas as palavras da sequ ncia de busca e posterior consulta a esse ndice medida que o banco de dados vai sendo rastreado Baxevanis e Ouellette 2001 Dois algoritmos heur sticos r pidos s o frequentemente usados para busca em bancos de dados de sequ ncias de DNA e prote na BLAST Basic Local Alignment Search Tool ou Ferramenta B sica de Busca de Alinhamento Local e FASTA Fast Alignment ou Alinhamento R pido Meidanis e Setubal 1997 Nenhum deles usa programa o din mica pura embora FASTA execute uma variante do m todo de Smith Waterman para refinar alinhamentos obtidos por outros de seus procedimentos Pearson 2001 Esses m todos chegam a ser 5 a 50 vezes mais r pidos que os algoritmos rigorosos de programa o din mica e podem produzir resultados de qualidade similar em muitos casos porque examinam apenas uma por o dos alinhamentos potenciais entre duas sequ ncias I FASTA Este algoritmo um enfoque heur stico para alinhamentos r pidos de pares de seq ncias de DNA e prote na e que tenta aproximar o melhor alinhamento local e o escore reduzindo o custo computacional que ocorreria pela aplica o direta do procedimento Smith Waterman Baxevanis e Ouellette 2001 A primeira vers o do FAST o 19 FASTP foi desenvolvida por William R Pearson and Dav
230. pido que os algoritmos de programa o din mica para alinhamento local Entretanto compara es do BLASTP com vers es mais atuais de FASTA mostraram que a diferen a de velocidade entre eles muito sutil e que ambos 95 continuam significativamente mais r pido que os algoritmos rigorosos exceto em algumas circunst ncias muito limitadas Mesmo sendo os resultados de efetividade biol gica sensitividade e selectividade dos m todos de busca obtidos por investiga es emp ricas o autor afirma que o BLAST perfeitamente competitivo com o FASTA embora aquele seja um pouco menos efetivo que esse para identificar importantes identidades particularmente quando as sequ ncia possuem espa os ou lacunas Por isso h a recomenda o de que sejam usados redundamente BLAST e FASTA o que faz sentido bem como o faz utilizar o algoritmo Smith Waterman alinhamento local em toda a extens o das duas sequ ncias localmente similares encontradas por qualquer dos algoritmos heur sticos E Willian R Pearson acrescenta enquanto BLASTP efetivo para identificar rela es distantes um alinhamento do tipo Smith Waterman deve sempre ser usado conjuntamente quando as identidades s o analisadas e mostradas 3 4 ENTENDENDO UM PROJETO GENOMA Em rela o aos genomas nos ltimos anos houve uma verdadeira explos o desses projetos cujo objetivo conhecer a informa o contida no DNA das c lulas que o que determina as suas p
231. pio a recomenda o de n o se declararem vari veis como inst ncias de classes concretas Ao inv s disso devemos nos comprometer com o uso de interfaces definidas por classes li GAMA Erich HELM Richard JOHNSON Ralph VLISSIDES John Design Patterns Elements of Reusable Object Oriented Software Addison Wesley 1995 A FOWLER Martin Analysis Patterns Reusable Object Models Addisson Wesley 1996 Y Hay David C Data Model Patterns Conventions of Thought V ALEXANDER Christopher ISHIKAWA Sara SILVERSTEIN Murray A Pattern Language Towns Buildings Construction Oxford University Press 1977 1171p M DIKEL David HERMANSEN Christy KANE David MALVEAUX Raphael Organizational Patterns for Software Architecture Proceedings PLoP 97 Pattern Languages of Programming Conference Dispon vel em http st www cs utuc edu users hanmer PloP 97 Workshops html 132 abstratas Devem se usar patterns de cria o para instanciar classes concretas Isto significa que a associa o entre uma interface e a sua implementa o deve ocorrer de forma transparente durante a instancia o Outro princ pio usar preferencialmente composi o de objetos em vez de heran a de classes Algumas desvantagens da heran a s o as seguintes n o se pode mudar as implementa es herdadas das superclasses em tempo de execu o a heran a exp e uma subclasse aos detalhes de implementa o da sua classe pai e isto quebra
232. plamente configur vel modular capaz de adaptar se aos diferentes projetos genoma de f cil integra o com novos componentes est vel e que mantenha a integridade e a consist ncia dos dados durante o processamento de an lise Inicialmente ser o consideradas apresenta o e manipula o gr fica dos resultados do BLAST e de 13 anota o de alinhamento m ltiplo de predi o de estrutura secund ria de prote na e de deriva o de rvore filogen tica 2 2 2 Objetivos espec ficos Conforme o levantamento de requisitos os principais objetivos espec ficos do sistema s o a b d f g Integrar com Sistema Genoma e BD pairwise XML desenvolvidos pelos integrantes da Biofoco M dulo de Anota o desenvolvido pelo aluno Andr Barreto da p s gradua o da UCB e aplicativos externos para execu o das an lises Integrar as diversas ferramentas agregadas plataforma para que a sa da resultado de uma an lise possa trafegar transparentemente como entrada para a pr xima an lise Facilitar a consulta aos resultados do BLAST a partir de uma sequ ncia selecionada no BD pairwise XML Executar alinhamento multiplo a partir dos hits resultantes da execu o do BLAST e permitir visualiza o gr fica do resultado O pesquisador poder escolher dentre as diversas ferramentas apresentadas a mais adequada para a execu o da an lise Executar predi o de estrutura secund ria de proteina e
233. plicadas Qual o n mero de sequ ncias necess rio para se realizar um genoma completo N o h uma resposta simples para essa pergunta visto que isso depende da complexidade de cada tipo de genoma no qual tem se que considerar o conteudo de zonas repetitivas regi es de dif cil clonagem de baixa complexidade entre outros Entretanto convencionou se considerar que o sequenciamento de uma quantidade de nucleot deos que permita cerca de 5X a cobertura do genoma um n mero com o qual normalmente se atinge acima de 95 de fechamento Por cobertura entenda se o n mero m nimo te rico de reads que seria capaz de fechar um determinado genoma se n o houvesse sobreposi o entre eles Por exemplo um genoma de 2 Mb necessita teoricamente de um m nimo de 4000 reads para cobri lo 4000 reads x 500 bp 2 000 000bp Pereira 2001 Para lidar com o genoma o projeto dividido em duas grandes etapas sequenciamento e anota o Sequenciamento a determina o da ordem de nucleot deos DNA ou RNA ou a ordem de amino cidos em uma prote na Santos e Ortega 2001 A anota o que a etapa seguinte envolve a atribui o de fun es e identifica o Mais detalhes em http sunflower bio indiana edu clively Research Red Queen 20hyp html 98 de padr es e de genes na sequ ncia linear do DNA obtida do sequenciamento Toda essa informa o est dispon vel nas diferentes ordens e arranjos das sequ ncias
234. putadores Universidade de Delaware USA ftp ftp capsl udel edu pub courses eleg667 2000 slides t picos 2a 2b e 2c Site pesquisado em 26 04 2002 Meidanis e Setubal 1997 Meidanis Jo o Setubal Jo o A introduction to Computational Molecular Biology International Thomson Publishing USA 1997 meidanis dec unicamp br e setubal wdcc unicamp br Mitchell 1996 Mitchell Melanie A introduction to genetic algorithms MIT Press 1996 mm msantafe edu NCBI Education 2002 Centro Nacional de Informa o Biotecnol gica NCBI Education mar o de 2002 http www ncbi nim nih gov Education index html Site pesquisado em 25 03 2002 NCBI Primer 2002 Centro Nacional de Informa o Biotecnol gica NCBI 4 Science Primer janeiro de 2002 http Awww ncbi nih gov About primer index html Site pesquisado em 25 03 2002 Orfali et al 1997 Orfali Robert Harkey Dan Edwards Jeri Instant CORBA John Wiley amp Sons 1997 Pappas 2002 Pappas Georgios Joannis J Rede de pesquisa e desenvolvimento em bioinform tica do Centro Oeste gpappas vpos ucb br Pearson 2001 Pearson William R Protein Sequence comparison and Protein Evolution Tutorial ISMB2000 Department of Biochemistry and Molecular Genetics University of Virginia USA October 2001 wrp virginia EDU Pearson 2002 Pearson William R FASTA Sequence database search version 3
235. que dever expressar sua proteina Ainda downstream para marcar o fim do gene h uma regi o terminadora terminator FAPESP 1999 O processo de transcri o ocorre do seguinte modo uma mol cula chamada RNA polimerase liga se ao in cio de cada gene regi o codante do DNA por indica o da sequ ncia promotora promoter Este processo sempre constr i mol culas de mRNA na dire o 5 upstream para Observa o sugerida pela Profa Dra Nat lia Martins 31 3 downstream embora a fita modelo seja lida na dire o 3 para 5 A sequ ncia de mRNA pode ser traduzida em uma das 6 poss veis ORF s dependendo onde o processo come a A polimerase inicia ent o uma rea o na qual o DNA utilizado como fita modelo para a cria o de uma fita complementar de RNA chamada transcri o prim ria pois cont m xons e tamb m introns Ao final dessa sequ ncia extraordinariamente 250 ou mais adenosinas A s o adicionadas constituindo a chamada cauda poli A Em um pr ximo passo splicing os introns de c lulas eucari ticas s o eliminados pelo spliceossomo restando apenas a jun o de todos os xons para formar o RNA maduro uma sequ ncia de tr s nucleot deos chamada c don O mRNA resultante ent o transportado do n cleo da c lula para o citoplasma ou citosol Vide Figura 0 2 Transcri o reversa processo no qual uma mol cula de mRNA maduro reversivamente convertida em DNA tamb m
236. quer banco de dados para o qual o fornecedor tenha uma implementa o concreta dessas interfaces Segue a Figura 4 4 2 Classes clientes Figura 4 4 2 Esquema do pattern Facade Baseado no livro Design Patterns Elements of Reusable Object Oriented Software Gama et al p gina 185 Para este trabalho de Disserta o este pattern est sendo utilizado para a estrutura o de todas as intera es com as ferramentas externas H classes persistentes que mant m os par metros e o pattern os utiliza para execu o da ferramenta apropriada controle dos arquivos de retorno etc 4 5 CORBA CORBA Common Object Request Broker Architecture ou Arquitetura Comum de Agente de Requisi o de Objeto consiste em uma defini o aberta e neutra que especifica arquitetura e infra estrutura para a execu o de programas em redes de computadores A sua grande vantagem permitir a integra o de programas escritos em 136 diversas linguagens e executados em virtualmente qualquer combina o de hardware ou sistema operacional Ao mesmo tempo prov uma s lida base para a utiliza o de componentes reutiliz veis de software Consulte http www omg org Dentre os diversos servi os do CORBA tr s deles est o sendo diretamente utilizados no Sistema BLOOM Servi o de Objeto Persistente Servi o de Consulta e Servi o de Cole o O Servi o de Objeto Persistente POS Persistent Object Service permite que objeto
237. r diante Algumas cole es s o ordenadas outras usam chaves para identificar os elementos Finalmente algumas cole es rastream as refer ncias dos objetos outras simplesmente coletam tipos de dados por exemplo linhas em uma cole o do tipo tabela As principais interfaces de Cole o e de Consulta s o a CollectionFactory define uma nica opera o create Esse m todo deve ser invocado para cria o uma nova inst ncia de uma cole o vazia b Collection define opera es que permitem adicionar alterar recuperar e remover membros de uma cole o Invoca se o m todo add all elements para adicionar todos os elementos de uma outra cole o para a cole o de destino Insert element at permite adicionar c d e f g 138 um elemento numa posi o particular Create iterator permite criar um ponteiro m vel para navegar pela cole o Iterator define tr s opera es que permitem percorrer uma cole o Reset aponta para o in cio da cole o Next incrementa a posi o do iterator More permite testar se ainda restam elementos na itera o QueryEvaluator define a opera o evaluate para avaliar uma consulta Essa opera o utiliza a linguagem de consulta especificada ou default Um banco de dados um exemplo de um objeto QueryEvaluator pois gerencia uma cole o de objetos persistentes QueryManager uma forma mais poderosa de um QueryEvaluator Tamb m permite criar um o
238. r e tamb m da Bioquimica pois enquanto h vinte anos a determina o da sequ ncia era geralmente um dos ltimos passos na caracteriza o da prote na hoje isso se reverteu Realmente j n o se concebe a id ia de publicar uma sequ ncia de DNA rec m clonada sem que tenha sido feita uma busca nos principais bancos de dados No livro de Gusfield 1997 s o apresentadas diversas hist rias de sucesso dentre elas o primeiro relato que ocorreu ainda no ano de 1970 e foi a descoberta da correla o entre oncogenes genes do c ncer e prote nas relacionadas ao fator de crescimento da c lula e uma outra mais recente publicada no New York Times 03 05 1995 sobre a esclerose m ltipla na qual as imunoc lulas T utilizam as prote nas da superf cie da mielina para erradamente identificar as c lulas no interior dessa como intrusas interrompendo a transmiss o normal de sinais ao longo do nervo Por trabalhos laboratoriais e busca em bancos de dados de proteinas concretizou se a conjectura de que o erro acontecia porque o sistema imunol gico talvez confundisse essas prote nas com outras de v rus e bact rias que teriam previamente infectado o indiv duo usando sequ ncias de prote nas da superf cie da mielina realizaram se buscas e foram encontradas aproximadamente 100 cem prote nas de v rus e bact rias que apresentavam alta similaridade e que tamb m eram atacadas por c lulas T 35 N o sem motivo portan
239. r finalizada com sucesso 2 Um subconjunto de sequ ncias deve estar selecionado para que seja poss vel executar outros aplicativos em seguida a partir da tela atual Segue o diagrama de atividades correspondente Figura 5 11 4 Vide pr xima p gina 165 Selecionar aplicativo apropriado Clicar Executar Configurar par metros Atribuir descri o e coment rio para novo registro Determinar destino do resultado O sistema executa o aplicativo apropriado N o mostrar na tela O Mostrar na tela O sistema chama o editor de alinhamento m ltiplo Visualizar apresenta o gr fica do resultado Filtrar resultado Selecionar subconjunto de sequ ncias Selecionar pr ximo aplicativo Figura 5 11 4 Diagrama de Atividades Construir alinhamento m ltiplo IlI Predizer estrutura secund ria de prote na a Breve descri o a partir da sele o de um subconjunto das seq ncias resultantes do alinhamento m ltiplo este caso de uso possibilita ao Pesquisador executar a ferramenta que prediz a estrutura secund ria da prote na correspondente sequ ncia consenso do subconjunto selecionado Em seguida pode se visualizar e manipular graficamente todo o conjunto resultante 166 b Pr condi es T 2 Ter selecionado um subconjunto das sequ ncias resultantes do alinhamento m ltiplo Todas as sequ ncias selecionadas devem ser de amino cidos prote na c Fluxo principal de evento
240. r meio de uma s rie de edi es em caracteres individuais A edi o que utiliza o menor n mero de opera es chamada de transcri o tima sendo que v rias dessas podem ocorrer para a mesma sequ ncia transcri es co timas As opera es permitidas e realizadas apenas na primeira sequ ncia s o inser o I ou exclus o E de um caracter e substitui o S de um determinado caracter para igual lo a outro da segunda sequ ncia Ou equivalentemente as opera es podem ser realizadas nas duas sequ ncias para transform las em uma terceira desde que uma inser o em uma das sequ ncias possa ser vista como uma exclus o na outra e vice versa Essa medida pode ser n o valorada ou valorada No primeiro tipo apenas s o especificadas as opera es necess rias para transformar uma sequ ncia em outra sem mencionar pesos para essas edi es J no segundo tipo para cada uma das opera es citadas acima um custo positivo atribu do e para as igualdades G de caracteres o custo zero Com isso o custo final a soma de todas as edi es ocorridas Os dois tipos s o apresentados conjuntamente nos exemplos abaixo nos quais o custo positivo igual a 1 um a Para transformar LEITOR em ESCRITOR e vice versa uma das possibilidades seria Tabela 3 3 1 43 S S I IG GG G S E E GG GG 1 1 1 1 0 0 0 0 1 1 0 0 0 0 Tabela 3 3 1 Dist ncia Levenshtein ou de edi o
241. ra ou da segunda sequ ncias s ou t Se as sequ ncias tiverem tamanho igual ou aproximado ent o a complexidade passa a ser O n ou mais comumente complexidade quadr tica Alinhamento a constru o do alinhamento timo pelo fato de a matriz j estar devidamente preenchida feito em um tempo Oflen onde len o tamanho do alinhamento retornado o qual O m n 65 3 3 6 Matrizes de substitui o ou de escore Matrizes de substitui o ou por vezes tamb m chamadas de matrizes de escore s o tabelas bidimensionais i j que cont m valores que demonstram a probabilidade de que o amino cido da posi o i sofra muta o para o amino cido da posi o j quaisquer que sejam as duas sequ ncias envolvidas Tais matrizes s o constru das pelo estudo de diversas amostras de alinhamento pairwise Se a amostra grande o suficiente para ser estatisticamente significante as matrizes devem refletir as verdadeiras possibilidades de muta es que ocorreram ao longo de um certo per odo de evolu o Dois enfoques gerais t m sido usados para produzir tais matrizes a o primeiro um modelo pioneiro de evolu o de prote nas que resultou num conjunto de matrizes denominadas PAM Point Accepted Mutation ou Muta o Pontual Aceita e b um outro modelo mais recente chamado BLOSUM Block Substitution Matrices ou Matrizes de Substitui o de Blocos NCBI Education 2002 Os alinhamentos computados para buscas em bancos de
242. resenta o gr fica do resultado do alinhamento m ltiplo o pesquisador selecionar as sequ ncias que ser o utilizadas como par metro de entrada para este aplicativo Para tornar a execu o mais abrangente ser apresentada uma lista das ferramentas apropriadas Qualquer que seja a ferramenta escolhida pelo pesquisador a adequa o aos formatos de entrada e sa da ser tratada pelo pr prio Sistema utilizando o pattern Fa ade Aplicativo de rvore filogen tica uma ferramenta de largo uso e dispon vel na Internet para reconstruir a correta genealogia entre organismos e estimar o tempo transcorrido desde que eles se divergiram de um ancestral comum As rela es evolutivas entre grupos de organismos s o ilustradas em gr ficos chamados de rvores filogen ticas A partir da apresenta o gr fica do resultado do alinhamento m ltiplo o pesquisador selecionar as sequ ncias que ser o utilizadas como par metro de entrada para este aplicativo Para tornar a execu o mais abrangente ser apresentada uma lista das ferramentas apropriadas sendo que inicialmente ser utilizado apenas o aplicativo 150 Protpars Qualquer que seja a ferramenta escolhida pelo pesquisador a adequa o aos formatos de entrada e sa da ser tratada pelo pr prio Sistema utilizando o pattern Fa ade Segue a Figura 5 7 1 z a lt lt utility gt gt
243. riamente se s diverg ncias e aos espa os forem atribu dos valores negativos altos e cada identidade o valor 1 ent o o alinhamento local timo ser a subs rie comum mais longa Pode ser que na maioria dos casos nenhum desses seja o alinhamento de interesse haja vista que o escore depende tamb m da caracter stica da aplica o Para alinhamento local as entradas na matriz de substitui o devem ter um escore m dio que seja negativo De outro modo o alinhamento resultante tender a ser global No contexto de busca em bancos de dados novas teorias v m sendo desenvolvidas dentre elas o escore log odd s vide Gusfield 1997 p 3891 Se a compara o de sequ ncia feita para testar a hip tese de origem comum deve se tomar cuidado quanto interpreta o dos resultados Em geral alinhamentos timos s o os mais improv veis de terem ocorrido por acaso probabilisticamente analisando Entretanto sempre prudente comparar os escores obtidos quele que seria esperado em m dia para sequ ncias n o relacionadas mas com as mesmas caracter sticas das sequ ncias em quest o Se um escore timo est bem acima da m dia essa uma boa indica o de que a similaridade entre as sequ ncias n o por acaso Mesmo assim esse resultado por si mesmo n o implica homologia ou qualquer tipo de evid ncia de origem comum Experimentos mais detalhados baseados na informa o que o alinhamento prov s o em geral re
244. rma O cap tulo 2 descreve o objeto da pesquisa contemplando os fatores de motiva o e os objetivos geral e espec ficos O cap tulo 3 apresenta o referencial te rico de biologia molecular computacional o qual embasa o entendimento sobre as an lises executadas pelo aplicativo que objeto desta Pesquisa O cap tulo 4 descreve a metodologia utilizada para an lise projeto e implementa o do aplicativo objeto desta Pesquisa Dentre as metodologias empregadas destacam se UML RUP JAVA CORBA e alguns de seus servi os e por fim a linguagem XML que ser utilizada para integra o entre aplicativos e persist ncia de dados O cap tulo 5 contempla a vis o geral do projeto e o emprego das diversas metodologias citadas anteriormente O cap tulo 6 assinala os resultados ou ganhos alcan ados pela pesquisa tanto para a Bioinform tica quanto para a Inform tica O cap tulo 7 apresenta a conclus o desta Pesquisa mesmo estando o Sistema BLOOM em fase inicial de implementa o O cap tulo 8 destaca os poss veis trabalhos futuros que ser o legados ao informata O cap tulo 9 lista as refer ncias bibliogr ficas utilizadas nesta Pesquisa Em seguida s o apresentados anexo e gloss rio 2 OBJETO DA PESQUISA 2 1 MOTIVA O O cont nuo desencadeamento de projeto genoma por laborat rios do exterior e recentemente com muita nfase no Brasil indica que a quantidade de dados biol gicos dispon
245. rojeto implementa o e testes do Constru o C1 21 02 03 30 04 03 caso de uso Construir alinhamento m ltiplo An lise dos resultados da itera o Implementa o e testes dos servi os de filtragem e de parametriza o An lise dos resultados da itera o Implementa o e testes das classes persistentes em XML dos servi os de filtragem e C3 16 06 03 31 07 03 de parametriza o ou seja OS atributos desses servi os ser o mantidos em arquivos XML e gravados no jar de download da aplica o An lise dos resultados da itera o An lise projeto implementa o e testes do C4 01 08 03 01 10 03 caso de uso Predizer estrutura secund ria de proteina An lise dos resultados da itera o An lise projeto implementa o e testes do 02 10 03 02 12 03 caso de uso Derivar rvore filogen tica An lise dos resultados da itera o 171 Detalhamento do caso de uso Incluir tarefa An lise projeto implementa o e testes do caso de uso Incluir tarefa Detalhamento do caso de uso Manter tarefa c6 03 12 03 03 02 04 An lise projeto implementa o e testes do caso de uso Manter tarefa Detalhamento do caso de uso Executar tarefa An lise projeto implementa o e testes do caso de uso Executar tarefa An lise dos resultados da itera o Detalhamento do caso de uso Manter wish list An lise projeto implementa o e testes do caso de uso M
246. s 1 Este caso de uso se inicia quando o pesquisador seleciona um aplicativo para executar a atividade dentre aqueles constantes na lista de ferramentas apropriadas Clica no bot o Executar O Sistema utiliza os par metros pr determinados default de cada ferramenta Feito isso o Pesquisador atribui uma descri o breve e um coment rio para o novo registro Determina o destino do resultado mostrar na tela gravar no caminho e arquivo especificados gravar diretamente no BD pairwise XML ou todas as op es Clica no bot o OK e o Sistema executa a ferramenta O usu rio deve aguardar at o t rmino da transa o Se o pesquisador escolheu mostrar resultado na tela o Sistema permitir ent o que o usu rio interaja graficamente com os dados obtidos Ao concluir clica no bot o Retornar para retornar tela anterior que a do alinhamento m ltiplo d Fluxo alternativo de eventos 3a O pesquisador clica no bot o Par metros e pode alterar os par metros espec ficos de execu o da ferramenta e P s condi es 1 Se o pesquisador optou por salvar o resultado em arquivo ou no banco de dados essa transa o deve ser finalizada com sucesso Segue o diagrama de atividades correspondente Figura 5 11 5 167 Selecionar aplicativo apropriado Clicar Executar Configurar par metros Atribuir descri o e coment rio para novo registro Determinar destino do result
247. s Um resultado muito interessante dos projetos de sequenciamento de genomas bacterianos foi a descoberta de que mais da metade dos genes de um genoma partilham de semelhan as em sequ ncia com outros genomas que divergiram destes h milhares de milh es de anos Como a maioria dos estudos moleculares e fisiol gicos em biologia s o feitos com organismos modelos a an lise de semelhan a um formid vel utens lio de an lise por homologia da fun o dos genes Rocha 2000 Quando se pretende caracterizar uma fam lia de sequ ncias que partilham uma mesma atividade biol gica a utiliza o de alinhamentos de sequ ncias duas a duas ou alinhamento pairwise n o satisfat ria pois n o providencia uma compara o do conjunto das sequ ncias Pode se estar interessado na vis o global de um conjunto de sequ ncias por diversas raz es dentre as quais duas se destacam a as sequ ncias t m uma hist ria evolutiva comum e a partir delas podemos estudar a hist ria evolutiva das esp cies respectivas b as sequ ncias est o relacionadas por uma raz o de ordem funcional ou estrutural e o estudo das suas semelhan as permite acrescentar novas informa es sobre elas e c h certas sequ ncias que apresentam fun o similar em v rias esp cies diferentes e se deseja saber quais partes dessas sequ ncias s o similares e quais s o diferentes O alinhamento m ltiplo foi uma das primeiras respostas a estes tipos de problemas e ainda co
248. s Mota do Carmo orient II Pappas J nior Georgios Joannis orient HI T tulo CDU 57 081 2 Ficha elaborada pela Divis o de Processamento do Acervo do SIBI UCB Disserta o defendida e aprovada em 27 de mar o de 20083 pela banca examinadora constitu da pelos professores Presidente e Orientador Prof Marcos Mota do Carmo Costa Dr UCB Prof Rog rio Alvarenga Dr UCB Prof Wellington Martins Dr UCB Prof Nat lia Flor ncio Martins Dra Embrapa Cenargen li ill Esta Disserta o dedicada a Deus que me proporcionou sa de e coragem para cumprir mais esta etapa de vida minha fam lia e aos amigos pelo carinho e compreens o AGRADECIMENTOS A conclus o desta Disserta o s se tornou poss vel gra as ao trabalho de diversos colaboradores Agradecemos a todos e de forma particular aos professores Dr Marcos Mota do Carmo Costa Dr Georgios Pappas e Dr Wellington Martins pela indica o desta excelente linha de trabalho pela inestim vel orienta o e companheirismo a Profa Dra Nat lia Flor ncio Martins pela gentileza disponibilidade e paci ncia em ajudar me a corretamente compreender e aplicar as no es de Biologia Molecular aos pesquisadores e estagi rios do Laborat rio de Bioinform tica do Cenargen especialmente Dr Felipe Rodrigues da Silva e David Fagundes Junior respectivamente a empresa EMBRAPA e aos colegas de trabalho pela oportunidade e
249. s detalhes em http www fapesp br genoma391 htm 102 Uma quest o sens vel definir o momento de se anotar um genoma No caso de genomas de shotgun principalmente pequenos genomas comum se aguardar a finaliza o do sequenciamento e montagem para s ent o se realizar a anota o Em caso de cDNA ao contr rio toda sequ ncia costuma ser imediatamente comparada e anotada A vantagem do primeiro procedimento a seguran a da anota o No segundo caso a vantagem a possibilidade de r pida identifica o de genes relevantes que possam auxiliar no trabalho de bancada Voltando quest o do genoma saber os genes que um determinado organismo possui n o suficiente para entender como esses genes funcionam Para responder a essa demanda nos ultimos anos um novo tipo de tecnologia tem sido desenvolvida o Microarranjo de DNA comumente denominada de Chip de DNA que opera atrav s do princ pio de hibrida o de mol culas com sequ ncias complementares Por essa t cnica um rob imprime ordenadamente em uma l mina milhares de fragmentos de DNA correspondente sequ ncia de genes A c lula a ser estudada submetida a diferentes condi es por exemplo crescimento em 30 C ou 37 C e seu mRNA extra do sendo que essas mol culas refletem os genes que est o ligados na c lula naquele determinado momento Esses conjuntos de mRNAs s o transcritos reversamente na presen a de nucleot deos marcados com diferen
250. s sejam persistidos al m da aplica o que o cria ou do cliente que o usa O ciclo de vida pode ser curto ou indefinido Este servi o permite que o estado de um objeto seja salvo em um meio persistente e que esse estado seja recuperado sempre que necess rio Quando o objeto est na mem ria local pode se acessar seus atributos e m todos velocidade das linguagens de programa o nativas Orfali et al 1997 Os principais elementos deste servi o s o a Objetos persistentes PO s s o objetos cujo estado deve ser persistido ou armazenado Para tornar se tamb m persistente um objeto deve herdar as caracter sticas de um PO Todo objeto deste tipo tem um PID Persistent Identifier E descrito pela interface PO b Gerenciamento de Objeto Persistente POM uma interface independente de implementa o para opera es persistentes Posiciona se entre os objetos e o banco de dados c Servi o de Dados Persistentes PDS s s o interfaces para implementa es particulares de um meio de armazenado ou banco de dados Executa a tarefa de mover dados de um objeto para o reposit rio persistente Para conseguir acesso ao meio de armazenamento necess rio especializar as interfaces PDS e PID d Meio de armazenamento s o reposit rio de dados persistentes para os atributos de um objeto S o exemplos os ODBMS RDBMS dentre outros Al m das interfaces citados nos elementos acima h tr s outras tamb m muito importan
251. s sequ ncias s CAGCACTTGGATTCTCOGG e CAGCGTGG 49 Tabela 3 3 9 Um exemplo de alinhamento pairwise mostrando duas lacunas e dois espa os Isolados 51 Tabela 3 3 10 Alinhamento global timo para as sequ ncias s AAAC ct AGC nn eeeeeeeeeererrererereness 62 Tabela 3 3 11 Alinhamento global timo para as sequ ncias s AAAC et AGC nn eeeeeeeeeeeerererrerenems 63 Tabela 35 12 Amat PAM 2 anita peca ab da Db E a o 68 Tabela 33 13 A matriz BLOSUMO asia iii ad a a E 76 Tabela 3 3 14 Os algoritmos da fam lia FAST e eeeeeeeeeeeeereeereeererereareeeeeeerrerererereces cesso cesenssacaaaaa 79 Tabelas 5 15 Os aloonimos da familia BLAS Tsise i a aeai 87 Tabela 3 3 16 Um par de segmentos com escore determinado pela matriz BLOSUM62 errei 88 Tabela 3 3 17 BLAST Sequ ncia de busca par metros e palavras com alto escore matriz BLOSUM62 91 Tabela 3 6 1 As 3 gera es de enfoques para predi o de estrutura secund ria de proteina ss 112 Tabela 3 2 1 Plno dedesenvolV IMENO een a a r 141 Tabela 5 4 1 Detalhamento ou sentenca do problema ssonsasini ninan a E ISS UAM g bad 145 Tabela 5 1 Posicionamento do ProdUio sesa a a Ega aU O IS SEA 145 Tabela 3 01 Equipe Centenaro GS US SE a ca dE 146 Tabela 3 02 Pojenciais usta os do Sst Ma ira do GUN ACD oO a E 146 Tabela 5 0 1 isa de TISCOS acao Sa GRUNGE AT AAA E R 152 Tabela 541 151 Priorida
252. sa o Se o pesquisador escolheu mostrar resultado na tela o Sistema permitir ent o que o usu rio interaja graficamente com os dados obtidos A rvore resultante apresentada conforme o tipo default de visualiza o ou aquele escolhido previamente Ao concluir clica no bot o Retornar para retornar tela anterior que a do alinhamento m ltiplo Fluxo alternativo de eventos 3a O pesquisador clica no bot o Par metros e pode alterar os par metros espec ficos de execu o da ferramenta fa Essa visualiza o n o est tica e permite se ao pesquisador intercambiar entre os diversos tipos dispon veis clicando no bot o Outro tipo de rvore fb Se julgar necess rio o pesquisador clica no bot o Exportar para exportar a rvore resultante como um arquivo gr fico formatos texto e PDF para que seja utilizado em publica es 169 e P s condi es 1 Se o pesquisador optou por salvar o resultado em arquivo ou no banco de dados essa transa o deve ser finalizada com sucesso Segue o diagrama de atividades correspondente Figura 5 11 6 Selecionar aplicativo apropriado Clicar Executar Configurar par metros Atribuir descri o e coment rio para novo registro Determinar destino do resultado O sistema executa o aplicativo apropriado N o mostrar na tela Mostrar na tela Visualizar apresenta o gr fica do resultado Alterar tip
253. segmentos que em combina o mostrem se estatisticamente significantes Refinamentos ao programa original foram implementados para aumentar a velocidade necess ria devido ao crescimento dos bancos de dados permitir alinhamentos com lacunas e para aumentar a sensitividade das buscas de proteinas usando perfis gerados PSI BLAST Durante a an lise duas sequ ncias s o comparadas utilizando o enfoque abaixo descrito em 4 passos Os passos 1 e 2 s o do programa original A vers o atual do BLASTP usa a observa o de que ao inv s de estender cada palavra como feita no passo 2 melhor usar palavras mais curtas e isso exige que as duas palavras coincidentes estejam pr ximas na mesma diagonal antes de se computar um par de segmentos m ximo Bioinfo 326 2002 Devido ao BLAST com lacuna Gapped BLAST foi adicionado o passo 3 no qual utilizado um valor maior para o escore m ximo para que a execu o seja do mesmo n vel que aquela obtida com o BLAST sem lacuna Ungapped BLAST A raz o que se um alinhamento interessante cont m por exemplo 3 pares de segmentos m ximo cr ticos ent o o BLAST sem lacuna precisa de um limite maior que o m nimo dos escores desses segmentos mas o BLAST com lacunas pode usar o valor m ximo desses escores pois uma vez encontrado um desses segmentos m ximos a fase de extens o sem lacuna encontrar as demais Isso 3 vezes mais r pido que a execu o do programa original O passo
254. sequ ncias n o serem hom logas escores positivos por sua vez designam um par de res duos que se substituem mais frequentemente do que se esperaria por acaso e isso pode evidenciar homologia entre as sequ ncias PSC 1999 Por extrapola o as demais matrizes da fam lia PAM podem ser computadas multiplica se a matriz PAM1 por ela mesma n vezes e obt m se a frequ ncia de mudan as para proteinas que tenham divergido n originando uma nova matriz PAMn 68 Dessa forma se a matriz PAM1 for multiplicada por ela mesma 250 vezes obt m se a matriz PAM250 Tabela 3 3 12 Se duas sequ ncias divergirem 250 espera se que compartilhem aproximadamente 20 de identidade Pearson 2001 Dado que 20 de identidade est no limite para se detectar uma similaridade significativa Baxevanis e Ouellette 2001 as matrizes PAM200 e PAM250 t m sido largamente utilizadas para alinhamentos de sequ ncias bastante divergentes Desse modo para alinhamentos de sequ ncias com um grau maior de similaridade recomenda se o uso das matrizes PAM de valores mais baixos por exemplo PAM100 PAM120 e PAM160 Ou seja uma matriz PAM em particular mais eficiente para alinhar ou encontrar em um banco de dados sequ ncias que tenham divergido pela extens o indicada por sua unidade PAM A matriz PAM250 DMNC Is T P A G NDEal HRHK M HIAML vjr y wi CM E O E Z TS T P A G Sa S ETE a aTa i E ETE Si Tabela 3 3 12 A matriz PAM25
255. siderar apenas o melhor deles Entretanto o n mero de alinhamentos entre duas sequ ncias exponencial e tal enfoque resultaria um algoritmo intoleravelmente lento Meidanis e Setubal 1997 Por isso duas classes gen ricas de algoritmos s o usadas para calcular os escores de similaridade quando se deseja inferir homologia algoritmos rigorosos que garantem o c lculo de um escore timo pela aplica o da estrat gia chamada programa o din mica isto os algoritmos Needleman Wunsch 1970 e Smith Waterman 1981 sendo o primeiro aplic vel para alinhamentos globais e o ltimo para alinhamentos locais e os algoritmos heur sticos r pidos BLAST e FASTA que n o garantem um escore timo para cada sequ ncia numa base de dados Pearson 2001 3 3 5 Algoritmos de Programa o Din mica O embasamento da programa o din mica vem da observa o de que qualquer subcaminho parcial que termine em um ponto ao longo do caminho timo principal deve ele mesmo ser o caminho timo que leva quele ponto Assim o caminho timo pode ser encontrado por extens o incremental de subcaminhos timos Na formula o b sica de Needleman Wunsch o alinhamento timo deve se estender do come o ao fim das duas sequ ncias ou seja do canto superior esquerdo no espa o de busca ao canto inferior direito Em outras palavras ele busca alinhamentos globais Uma simples modifica o dessa estrat gia permite que um alinhamento local timo
256. significante se os mesmos res duos s o conservados em v rias sequ ncias distantemente relacionadas Se as sequ ncias divergiram muito a homologia pode n o ser reconhecida utilizando apenas alinhamento vide item e abaixo e t pico de Predi o de estrutura secund ria de prote na Identifica o de res duos altamente conservados que provavelmente correspondam a s tios essenciais para a estrutura ou fun o da sequ ncia pode ser til para projetar experimentos de mutag neses que demonstram a import ncia de s tios para ajudar a definir os requerimentos da associa o de substrato facilitar o entendimento ou predi o de fun es mutantes facilitar a identifica o e deriva o de bancos de dados de motivos ou dom nios PROSITE BLOCKS PFAM etc Predi o ou infer ncia de fun o biol gica se um gene homol go a um outro j caracterizado poss vel inferir a prov vel fun o do novo gene a partir da fun o daquele j conhecido A estrutura tridimensional de prote nas ou RNA hom logos frequentemente mais conservada que a sequ ncia prim ria Com isso pode se afirmar que uma estrutura similar implica similaridade de fun o Predi ao de estrutura o uso de alinhamento m ltiplo aumenta significativamente a predi o de estrutura secund ria de proteina S o tamb m comumente usados para modelagem de homologia isto a predi o de estrutura de sequ ncia pela compara o com outras hom
257. sponibiliza o das informa es gen micas e uso desse como ferramenta de datamining auxiliando na visualiza o e explora o das informa es que trafegam como entrada ou sa da entre as diversas ferramentas integradas Quanto inform tica alguns dos principais ganhos s o valida o e emprego de orienta o a objetos CORBA UML e RUP no desenvolvimento de uma ferramenta para uso cient fico integra o com utilit rios externos e com os sistemas Anota o e Genoma e reuso da arquitetura empregada no sistema Genoma Palavras chaves Bioinform tica Biologia molecular computacional DNA RNA Prote na Compara o de sequ ncias M todos de alinhamento de sequ ncias Programa o din mica PAM BLOSUM BLAST FAST Estrutura secund ria de prote na Arvore filogen tica Projeto genoma XII ABSTRACT Considered a special subject since the beginning of the 80 s bioinformatics can be defined as a way that covers all aspects of acquisition processing storage distribution analysis and interpretation of biological information All this happens in a narrow sinergy with the molecular biology fundamental paradigm which postulates that the genetic information is stored in the DNA sequences After the public initiative of Human Genome Project started in 1990 and its dead line to be completed in 2005 there has been a great deal of growth in the volume of the nucletide sequences and aminoacids available in databases In
258. sseo 41 Figura 3 3 1 A f rmula da rela o recorrente de programa o din mica i rear 56 Figura 3 3 2 A condi o base da rela o recorrente do alinhamento global para as sequ ncias s AAAC et AGC 56 Figura 3 3 3 A condi o base da rela o recorrente do alinhamento local para as sequ ncias s AAAC e t AGC 56 Figura 3 3 4 Um algoritmo pseudoc digo para calcular a similaridade global em programa o din mica 57 Figura 3 3 5 Um algoritmo pseudoc digo para calcular a similaridade local em programa o din mica 58 Figura 3 3 6 O in cio da computa o tabular para alinhamento global das sequ ncias s AAAC e t AGC parte 1 de EIERNE A A I da A oa Ra a EA Ga Rad A St A A Aa 59 Figura 3 3 7 O resultado final da computa o tabular para alinhamento global das sequ ncias s AAAC e t AGC PAC Zi A E T A E ET A E E AT 59 Figura 3 3 8 O in cio da computa o tabular para alinhamento local das sequ ncias s AAAC e t AGC 60 Figura 3 3 9 O resultado final da computa o tabular para alinhamento local das sequ ncias s AAAC e t AGC PAC ia A A IAA a E E Do A O E T T E 60 Figura 3 3 10 Um exemplo de algoritmo pseudoc digo para calcular o alinhamento timo em programa o CANTO A E AE E A T A E E TSA AAA AA E O a E E T EE AEE A A A TAA A E E A E 61 Figura 3 3 11 Prefer ncia anti hor ria das setas no rastreamento reverso
259. stral comum A filogenia molecular uma das reas da evolu o molecular que tem tido muito interesse nos ltimos anos principalmente pelo fato de que muitas rela es filogen ticas s o imposs veis de serem descobertas de outra forma Al m disso o interesse em biologia da conserva o est em alta e atrav s de dados de filogenia molecular poss vel descobrir se determinadas popula es caracterizam unidades diferentes de signific ncia evolutiva e contribuem para o legado evolutivo de uma esp cie devendo ser conservadas em prioridade Santos 2000 Os principais tipos de sequ ncias utilizados s o RNA riboss mico DNA nuclear codante ou n o codante DNA mitocondrial e sequ ncias de proteina Quanto a sequ ncias de DNA ou proteina algumas vantagens s o apontadas Bioinfo 326 2002 a Vantagens de DNA em regi es codantes mudan as sin nimas mesmo amino cido codificado levam a altera es que podem ser informativas em n vel de DNA mas n o de prote na Esse tipo de sequ ncia tamb m pode ser de regi es n o codantes Al m disso podem tamb m ser usadas para organismos muito relacionados ou altamente divergentes dependendo dos marcadores utilizados b Vantagens de proteina vinte amino cidos comparados a quatro nucleot deos permitem o melhor sinal quanto a ru do numa propor o de 5 contra 25 para DNA As propriedades dos amino cidos s o essenciais para a fun o ou estrutura da pro
260. t O nico e melhor subalinhamento encontrado ap s a aplica o da matriz de escore chamado de initi que computado para cada compara o entre a sequ ncia de busca e uma sequ ncia do banco de dados Os valores s o relatados num histograma juntamente com o escore m dio O initf tamb m usado para ordenar todas as sequ ncias do banco de dados Meidanis e Setubal 1997 83 Sequ ncia do banco de dados 12345678 V DMAAQIA offsets 3 1 2 2 Vetor de offsets Figura 3 3 16 Segunda etapa do FASTA m todo da diagonal Baseado em Meidanis e Setubal 1997 3 Combinar regi es iniciais de diagonais diferentes Se existirem v rias regi es iniciais com escores maiores que o valor CUTOFF atalho o algoritmo checa se as regi es iniciais truncadas podem ser combinadas para formar um alinhamento aproximado sem lacunas uma nova regi o de alto escore Pearson 2001 Esse escore a soma dos escores das regi es contribuintes subtra da da penalidade geralmente 20 de cada jun o Regi es que se sobrep e n o podem ser combinadas Para que as jun es possam ser feitas inser es ou exclus es s o introduzidas O mais alto escore para uma regi o ap s esta etapa chamado de initn Dipperstein 2000 Vide Figura 3 3 17 a seguir Nesta etapa FASTA tenta combinar bons subalinhamentos em um nico alinhamento de mais alto escore e que permite alguns espa os A estrat gia geral pode ser
261. tado do BLAST Blast Summary 197 198 GLOSS RIO Lei de Moore foi criada h 30 anos por Gordon Moore fundador da Intel e estabelece que a capacidade dos chips duplicada no per odo de 18 a 24 meses Pares de bases bp ou base pair em ingl s diz se pares de bases para expressar que na h lice ou fita dupla do DNA a base A C Ge T de uma das fitas possui uma base complementar na outra fita Pode se tamb m dizer simplesmente bases Drosophila melanogaster ou mosca da fruta um pequeno inseto de 3mm de comprimento e que se acumula ao redor de uma fruta estragada um dos mais valiosos organismos em pesquisa biol gica particularmente em gen tica e biologia do desenvolvimento Suas principais caracter sticas s o tamanho reduzido manuseio f cil e barato de grandes quantidades genoma pequeno 165 Mb j sequenciado em 2001 r pido ciclo de vida 2 semanas disponibilidade de tipos mutantes pesquisada mundialmente por governos laborat rios e universidades Vide http ceolas org VL fly intro html Arabidopsis thaliana uma pequena planta de floresc ncia usada largamente como um organismo modelo em gen tica e biologia molecular de plantas embora n o seja de grande signific ncia agron mica E membro da fam lia da mustarda Brassicaceae que inclue esp cies cultivadas tais como o repolho e o rabanete Suas principais caracter sticas s o genoma pequeno 125 Mb j seque
262. te importante quando proteinas multimodulares s o comparadas A programa o din mica consiste ent o em resolver uma inst ncia de um problema a partir de solu es j computadas para inst ncias menores do mesmo problema Dadas duas sequ ncias s e t constr em se as solu es pela determina o de todas as similaridades entre prefixos arbitr rios das duas sequ ncias Inicia se com prefixos menores e usam se resultados j computados para resolver o problema para prefixos maiores Meidanis e Setubal 1997 Sejam m o tamanho de s e n o tamanho de t Existir o m 1 prefixos poss veis de s e n 1 prefixos poss veis de t inclu ndo a sequ ncia vazia Assim ter se uma matriz de m 1 x n 1 elementos onde cada entrada i j cont m a similaridade entre s 1 e t 1 Sendo s AAAC e t AGC a primeira sequ ncia colocada na margem esquerda e a segunda no topo para que os prefixos sejam mais facilmente indicados Gusfield 1997 Para resolver o problema s o utilizados tr s componentes essenciais a rela o recorrente a computa o tabular e o rastreamento reverso A nfase deste t pico est 55 direcionada para o alinhamento global mas sempre que necess rio alguns detalhes do alinhamento local s o adicionados visando a utilizar estrat gias semelhantes para os dois processos A rela o recorrente estabelece uma recursividade entre o valor da entrada a i j para i e j positivos e os valores d
263. teina resultante j o DNA n o estruturalmente importante Podem ser usados principalmente organismos que apresentem alta diverg ncia por exemplo levedura e vertebrados A clad stica e a fen tica s o duas escolas sistem ticas que possuem id ias diferentes sobre qual o melhor m todo de diferenciar classificar e calcular a diverg ncia evolutiva entre organismos Santos 2000 116 A escola feneticista diz que uma classifica o ser mais informativa se for baseada na similaridade total entre as esp cies medida por tantas caracter sticas quanto poss vel sejam elas moleculares fenot picas ou anat micas Os feneticistas desenvolveram m todos matem ticos elaborados para agrupar esp cies com rela o sua similaridade global e mostrar essas caracter sticas num gr fico chamado fenograma Quanto maiores forem as caracter sticas comuns nas esp cies maior ser o n vel em que elas ser o agrupadas no fenograma Entretanto esse gr fico pode n o representar a filogenia verdadeira pois ele n o leva em considera o as taxas diferenciais de evolu o A escola clad stica que mais aceita argumenta que uma classifica o deve expressar as rela es de ramifica o entre as esp cies sem se importar com o grau de similaridade ou diferen a Para um cladista interessante notar os caminhos evolutivos seguidos pelos grupos e considera se que todos os t xons possuem uma origem monofil tica e devem
264. tema Genoma m dulo de An lise de Seqii ncia ieeerererrrererereeeeeeaaenaaeeaaererreea 195 Figura 0 4 Sistema BLOOM visualiza o gr fica do resultado do BLAST in eeererrrerree 196 Figura 0 1 Sistema BLOOM sum rio do resultado do BLAST e rrerrrrerreeaeeererenaaaaaeeererereee 197 IX LISTA DE TABELAS Tabela 3 1 1 Os vinte amino cidos comumente encontrados nas proteinas eeeeeeeeeeeeerererererererereeeos 22 Tabela 3 1 2 O c digo gen tico mapeando c dons para amino cidos erre eeerereereererereees 24 Tabela 3 3 1 Dist ncia Levenshtein ou de edi o para transformar LEITOR em ESCRITOR 43 Tabela 3 3 2 Dist ncia Levenshtein ou de edi o para transformar AGCACACA em ACACACTA 43 Tabela 3 3 3 Dist ncia Hamming entre as sequ ncias s eeeeeeeeeeeeeeeereeeeereereeeeeeeeeerererereeereeeeeeess 44 Tabela 3 3 4 Alinhamento global entre as sequ ncias s LEITOR a tSESCRIT TOR nnnnnnnnnnenneneneeesenessssssssssssssssssen 46 Tabela 3 3 5 Alinhamento global entre as sequ ncias s CGGATTAC at CGGATTCA errei 47 Tabela 3 3 6 Alinhamento local entre as sequ ncias s PQRAXABCSTVQ e XYAXBACSLL 48 Tabela 3 3 7 Alinhamento semiglobal 1 entre as sequ ncias s CAGCACTTGGATTCTCOGG e CAGCGTGG 49 Tabela 3 3 8 Alinhamento semiglobal 2 entre a
265. tes neste servi o a PlDFactory que permite criar um objeto PID b POFactory 137 que permite criar uma inst ncia de um objeto persistente e c PID que retorna uma vers o string do PID Nesta Disserta o este Servi o de Objeto Persistente estar representado para o Sistema BLOOM no item Mecanismos de Persist ncia O Servi o de Consulta OQS Object Query Service permite encontrar objetos cujos atributos coincidam com o s crit rio s especificado s na busca Deve se notar que as consultas n o possuem acesso ao estado interno do objeto o que significa que n o violam o encapsulamento As consultas podem ser formuladas em OQL Object Query Language SQL Structure Query Language ou em subconjunto dessas duas linguagens Orfali et al 1997 O Servi o de Cole o CCS CORBA Collection Service prov uma maneira uniforme para criar e manipular as maioria das cole es mais comuns As classes deste servi o relacionam se com as do Servi o de Consulta Cole es permitem que os objetos sejam manipulados em grupo Tipicamente se aplicam opera es de cole o em grupos e n o em objetos individuais Exemplos de cole o s o filas pilhas listas arrays rvores conjuntos e bags cada um exibindo comportamentos espec ficos do tipo de cole o Alguns opera es que podem ser invocadas em um set s o adicionar um novo membro testar igualdade testar se est vazio uni o intersec o e assim po
266. tes subst ncias fluorescentes Supondo que os cDNAs gerados de mRNAs das c lulas crescidas a 30 C foram marcados com fluoresc ncia verde e os de c lulas crescidas a 37 C marcados com fluoresc ncia vermelha esses dois tipos de cDNAs marcados s o misturados e hibridados contra o DNA impresso na l mina As sequ ncias dos genes para as quais existirem cDNA marcado v o se ligar a esse cDNA e consequentemente tornar se o pontos fluorescentes na l mina A cor de cada ponto vai indicar a situa o fisiol gica na qual aquele gene foi expresso e a intensidade do seu brilho vai ser proporcional sua intensidade de express o Existem excepcionais exemplos da utiliza o dessa metodologia para a investiga o do metabolismo de microorganismos como Saccharomyces cerevisiae 103 3 5 ALINHAMENTO M LTIPLO Entender estrutura fun o e evolu o de genes um dos principais objetivos de projetos de sequenciamento de genoma As an lises de sequ ncias hom logas til n o somente para estudar rela es evolutivas mas tamb m para identificar restri es estruturais ou funcionais de DNA RNA ou prote na Bioinfo 326 2002 Os programas de alinhamento s o desenhados para identificar sequ ncias hom logas distantes baseados nas semelhan as das sequ ncias Quando dizemos que duas sequ ncias s o hom logas ou seja que elas descendem de um ancestral comum assumimos uma hip tese para a hist ria evolutiva das sequ ncia
267. tidas hits ap s a execu o do BLAST dado um conjunto de crit rios do tipo pontua o E value P value qualidade PHRED etc Todos os pesquisadores interessados em pesquisa na rea de bioinform tica inclusive os integrantes da Biofoco Muitos pesquisadores tendem a considerar apenas as primeiras ocorr ncias da lista o que pode ser um O impacto disto equivoco bastante grave pois a ordem em que os registros s o apresentados n o garante sua import ncia para um dom nio espec fico Filtragem dos resultados conforme um conjunto de Uma solu o de sucesso permitir crit rios espec ficos para reduzir a quantidade de sequ ncias a serem analisadas A Inexist ncia de ferramenta de an lise dos resultados BLAST armazenados no BD pairwise XML que integre anota es das sequ ncias envolvidas constru o e visualiza o de alinhamento m ltiplo predi o de estrutura secund ria de proteina deriva o de rvore filogen tica etc Afeta quem Todos os pesquisadores integrantes da Biofoco At mesmo para atingir prop sitos id nticos dentro de um projeto de mapeamento gen mico pesquisadores O impacto disto v m usando ferramentas diversas e n o padronizadas Exemplo as diversas ferramentas dispon veis na Internet para realizar as an lises mencionadas acima Uma maneira nica e integrada de tratar os dados Uma solu o de sucesso permitir armazenados no BD pairwise XML Com isso a potencialida
268. to que a industria dos bancos de dados dessa rea vem crescendo ano a ano tanto em tamanho das bases quanto em prolifera o de novos bancos Dentre esses bancos de dados destacam se a b c d e Entrez mantido pelo Centro Nacional de Informa o Biotecnol gica NCBI nos EUA um sistema de busca e recupera o que integra informa es de todos os bancos de dados citados abaixo GenBank DDBJ EMBL PIR PDB e Swiss Prot dentre outros Suas principais bases s o sequ ncias de nucleotideos e de proteinas estruturas macromoleculares tridimensionais genomas completos literatura m dica MEDLINE etc Todos os servi os informa es e tutoriais est o dispon veis no endere o http www ncbi nim nih gov Entrez GenBank Genetic Sequence Database ou Banco de Dados de Sequ ncias Gen ticas um banco de dados de sequ ncias de DNA tamb m mantido pelo NCBI Faz parte da Colabora o Internacional dos Bancos de Dados de Sequ ncias de Nucleot ideos e pode ser acessado pelo site http www ncbi nim nih gov DDBJ DNA Data Bank of Japan ou Banco de Dados Japon s de DNA mantido pelo Instituto Nacional de Gen tica NIG no Jap o tamb m um dos mais importantes banco de dados de sequ ncias de DNA Faz parte da Colabora o Internacional dos Bancos de Dados de Sequ ncias de Nucleot deos Sua p gina principal http www ddbj nig ac jp EMBL European Molecular Biology Laboratory ou Lab
269. tores nas Laborat rio de Bioinform tica reas de biologia e da UCB bioinform tica lotados no Laborat rio de Bioinform tica da UCB Equipe de pesquisadores do S o Mestres e Doutores nas Laborat rio de Bioinform tica reas de biologia e da UNB bioinform tica lotados no Laborat rio de Bioinform tica da UNB Tabela 5 6 1 Equipe cliente Pesquisadores da rea de bioinform tica Pesquisadores da rea de biologia molecular Estudantes de biologia e de bioqu mica P s graduandos nas reas afins Mestrandos nas reas afins Doutores nas reas afins Professores universit rios nas reas afins Empresas de biotecnologia Ind strias de produ o de alimentos OGM Empresas de produ o animal OGM Org os fiscalizadores do governo e sociedade ONG s Organiza es N o Governamentais nas reas afins Tabela 5 6 2 Potenciais usu rios do Sistema 5 7 INTERA ES OU PERSPECTIVAS DO PRODUTO O Sistema por si s n o realiza todas as atividades do processo ao contr rio est planejado para sempre que necess rio interagir com outros aplicativos e obter desses um servi o a saber a b 147 Sistema Genoma um sistema de anota o gen mica produzido no Laborat rio de Bioinform tica da EMBRAPA Recursos Gen ticos e Biotecnologia O sistema integra programas de an lise e visualiza o de sequ ncias nucleot dicas e cromatogramas originais produzidos em equipamentos de sequenciament
270. torial de biologia molecular computacional o qual tornou se o cap tulo 3 desta Disserta o Esse Tutorial ser divulgado como conhecimento no portal da Biofoco b Atendendo s necessidades dos usu rios o aplicativo desenvolvido gr fico interativo de c digo aberto respeitadas as propriedades intelectuais e de livre acesso a todos os clientes e usu rios da rede Biofoco c O pesquisador j pode fazer a experimenta o da mesma an lise em aplicativos diferentes escolhidos a partir de uma lista d O pesquisador tamb m j pode executar uma an lise em seguida a outra fazendo com que o resultado da anterior trafegue transparentemente como entrada para a pr xima an lise sem qualquer esfor o adicional por exemplo alinhamento m ltiplo e em seguida deriva o de rvore filogen tica do conjunto de sequ ncias selecionadas no alinhamento e Devido necessidade de integrar pelo menos os tr s sistemas previstos no Projeto Biofoco criou se um ambiente padronizado de acesso o qual est propiciando melhor gerenciamento organiza o e disponibiliza o das informa es Essa estrat gia a mesma que vinha sendo seguida pelo Sistema Genoma f 181 Para evitar perda de tempo e esfor o do pesquisador com execu o manual de atividades foram projetados a wish list e o agendamento das tarefas que podem ser executadas automaticamente pelo Sistema Para a Inform tica os resultados s o a b
271. ubal 1997 82 2 Encontrar as 10 melhores regi es utilizando uma matriz de substitui o Num procedimento mais detalhado duas ou mais k tuplas comuns s o combinadas quando est o pr ximas e na mesma diagonal Os crit rios s o heur sticos Essas k tuplas hot spots combinadas s o chamadas de regi o Esse m todo conhecido como o m todo da diagonal pois um offset pode ser visto como uma diagonal em uma matriz de programa o din mica Figura 3 3 16 Um poss vel uso do mais alto offset executar o algoritmo para outras diagonais pr ximas Uma regi o pode ser considerada como um par de segmentos na terminologia BLAST ou como um alinhamento local sem lacunas s regi es s o atribu dos escores que reflitam suas identidades e desigualdades Meidanis e Setubal 1997 As palavras que se sobrep em na mesma diagonal n o s o consideradas no escore importante lembrar se de que regi es n o cont m lacunas e nem indel inclus o ou exclus o porque ela derivada de uma nica diagonal Gusfield 1997 Ap s isso rastream se as 10 regi es com a mais alta densidade de identidades usando uma matriz de substitui o que pode ser baseada em amino cidos ou nucleot deos por exemplo a BLOSUM5O Para incluir somente aqueles res duos que contribuem para o escore mais alto truncam se os finais da regi o Pearson 2001 Esses melhores 10 escores s o a primeira medida da similaridade entre s e
272. ue os unem Durbin et al 1998 Se pud ssemos determinar a partir de uma tabela de dist ncias os pares de elementos mais pr ximos a rvore seria constru da de forma imediata e com comprimentos aditivos exatos No entanto isto geralmente n o poss vel porque os comprimentos dos ramos s o diferentes Nos crit rios qualitativos as diferen as entre as mol culas s o consideradas como uma s rie de vari veis descontinuas Os dois m todos mais empregados embora n o sejam os nicos s o a b M xima Parcim nia MP a hip tese mais simples deve ser a escolhida dentre todas as hip teses poss veis de reconstru o filogen tica Ou seja a rvore que apresentar o menor n mero de passos passos mudan as de estado de car ter ser a rvore mais parcimoniosa e ser a escolhida para explicar um determinado conjunto de dados Existem no entanto alguns problemas e limita es pois um determinado conjunto de dados pode gerar mais de uma rvore igualmente mais parcimoniosa pois os dados estudados podem ser acomodados de formas diferentes e apresentar o mesmo n mero menor de passos M xima Verossimilhan a MV baseia se em modelos evolutivos expl citos de substitui o de nucleot deos que s o avaliados quanto sua probabilidade de explicar um conjunto de dados de forma que reflita a hist ria evolutiva mais veross mil O modelo que apresentar o melhor valor de verossimilhan a que por quest es oper
273. ue t m a mesma dire o mas sentidos opostos P rica segundo o dicion rio Aur lio S culo XXI significa 1 qualquer base derivada da purina e que entra na composi o de in meras subst ncias naturais Pirimid nica segundo o dicion rio Aur lio S culo XXI significa 1 relativo subst ncia heteroc clica arom tica i1s mero da pirazina com dois tomos de nitrog nio separados por um de carbono da qual se podem considerar derivadas tr s das bases nitrogenadas encontradas nos cidos nucl icos a citosina a timina e a uracila f rmula C4H4N2 Histona segundo o dicion rio Aur lio S culo XXI significa 1 qualquer de certas enzimas que se ligam firmemente ao cido desoxirribonucleico dos cromossomos de c lulas eucari ticas Promotores regi es de DNA localizados fora da regi o codante dos genes mas que definem o padr o de transcri o desses os frames vide ORF 7 Sat lites estrutura esf rica na extremidade de um dos cromossomos Vide http intermega com br biotemas cromossomo estrutura htm diferente de DNA sat lite que envolve sequ ncias repetidas em tandem agrupadas em um ou em alguns locais intercaladas com sequ ncias de c pia nica ao longo do cromossomo As fam lias de DNA sat lite variam quanto localiza o no genoma comprimento total da s rie em tandem comprimrnto das unidades repetidas que constituem a s rie Vide http www virtual epm br cursos genetica htm estru ht
274. ueles que tentam registrar todas as muta es e diferen as polimorfismos que t m sido descobertas em um dado gene ou em um conjunto de genes e alguns diferem no modo como os dados das sequ ncias s o 37 armazenados e integrados com outras informa es biol gicas bem como os tipos de servi os de consulta e recupera o oferecidos 3 2 2 Similaridade e Homologia A semelhan a entre duas sequ ncias nucleot dica ou prot ica de organismos diferentes pode ser explicada pela doutrina evolucionista de que todo o material gen tico contempor neo possui um ancestral comum Charles Darwin 1859 De acordo com essa doutrina muta es entre as fam lias das atuais esp cies ocorreram durante o curso da evolu o que vem desde a origem do Universo 12 bilh es de anos seguido pela forma o do Sistema Solar 4 6 bilh es de anos e pelos demais acontecimentos mostrados na Figura 3 2 1 Vertebrados invertebrados Plantas Animais Procariotos Eucariotos Sistemas de auto replica o Forma o do Sistema Solar 4 6 Origem do Universo 12 Tempo em bilh es de anos Figura 3 2 1 rvore da vida Baseada em Pearson 2001 p 5 Dessa forma dado um alfabeto arbitr rio de DNA ou de prote na comumente ocorrem muta es locais de caracteres dentro do escopo desse alfabeto a partir da sequ ncia de uma esp cie ancestral conforme exemplifica a Figura 3 2 2 V rias esp cies podem resultar dess
275. ula em que ela se fa a necess ria Alguns exemplos dessas modifica es s o a liga o de v rios grupos qu micos a diferentes partes na proteina incluindo a cares fosfatos acetila metila etc Vide Figura 0 2 a seguir i Step 2 Transcription Pip Transfer RHA Aming l acids S Ribosomal FM Anticodon G5 O Froteins qr f T Te e N Traremnplior Trarediadiar A r Aming Polypeptida DNA mRNA ANA aid e psp gt Messenger RNA m Nuclear leaves nucleus LA membrane K T Nr DEP DODO Ha Ri bosome PA PAHHHHHH HE TZoc0rOTPrOPrOTCTITODODT E DAE DAD E Figura 0 2 A S ntese de Prote na Do lado esquerdo uma vis o da c lula e todas organelas envolvidas na s ntese de proteina Do lado direito uma vis o esquem tica do que ocorre no gene uma subsequ ncia do DNA Fontes http gened emc maricopa edu bio bio181 BIOBK BioBookPROTSYn html lado esquerdo e http www nhgri nih gov DIR VIP Glossary Illustration gene2 html lado direito 33 3 2 COMPARA O DE SEQU NCIAS E BUSCA EM BANCO DE DADOS 3 2 1 Tipos de compara o e a import ncia da busca em bancos de dados Os problemas solucionados pela Biologia Molecular Computacional podem ser divididos em duas reas gerais a jcompara o exata de sequ ncias e descoberta de padr es e b compara o inexata ou aproximada que inclui a busca de similaridade por meio de alinhamento de sequ ncias Na compara
276. ultado por uma estrat gia de escore mais apropriada por exemplo o sistema SP e a forma de colocar as sequ ncias e n o simplesmente empilh las o que vem sendo feito usando estruturas em estrela ou rvore Os alinhamentos resultantes podem servir a dois prop sitos principais l1 achar regi es de sequ ncias similares em todas as sequ ncias que definem um padr o ou dom nio conservado de caracteres consenso Il se o alinhamento particularmente coerente usar as posi es alinhadas para derivar uma poss vel rela o evolutiva entre as sequ ncias O procedimento geral para produzir um alinhamento m ltiplo consiste de quatro passos a busca para identificar todas as potenciais sequ ncias hom logas em bancos de dados b coletar essas sequ ncias c computar os alinhamentos e d checar e editar os alinhamentos O alinhamento m ltiplo de sequ ncias apenas um passo numa metodologia de pesquisa Tipicamente ap s o alinhamento multiplo das sequ ncias estas metodologias encaminham se para diferentes vias consoante o objetivo do estudo em particular para 105 estudos de filogenia ou de funcionalidades Al m disso h diversos outros usos importantes a saber Bioinfo 326 2002 a b d e Demonstra o de homologias entre sequ ncias baixa similaridade pode n o ser considerada significante por um algoritmo de alinhamento pairwise No entanto essa mesma similaridade pode ser altamente
277. um resultado de valor observ vel por um ator O ator respresenta um papel que um ser humano um dispositivo de hardware ou at outro sistema desempenha com rela o ao sistema sendo modelado Neste trabalho foram aplicados alguns desses diagramas para ilustrar a vis o est tica e a organiza o do comportamento das principais funcionalidades Diagrama de atividades mostra o fluxo de controle de uma atividade para outra Uma atividade uma execu o em andamento n o at mica em uma m quina de estados e efetivamente resulta em alguma a o que pode provocar mudan a de estado do sistema ou retorno de um valor Esse diagrama caso n o existam atividades s ncronas essencialmente um fluxograma Neste trabalho foi utilizado um diagrama deste tipo para representar a vis o din mica de cada uma das diversas funcionalidades do Sistema 124 c Diagrama de intera o seus subtipos s o os diagramas de sequ ncias e os de colabora o Exibem uma intera o consistindo de um conjunto de objetos e seus relacionamentos e as mensagens que podem ser trocadas entre esses objetos Um diagrama de sequ ncia tem nfase na ordena o temporal das mensagens j o diagrama de colabora o este mant m a nfase na organiza o estrutural dos objetos que enviam e recebem mensagens Neste trabalho foram utilizados diagramas de sequ ncias para representar os diversos e poss veis cen rios dos fluxos b sico e altern
278. un o do transcrito por pesquisa de homologia pois incorpora mais frequentemente a ORF no transcrito do que as ESTs convencionais Santos e Ortega 2001 Os ORESTES foram respons veis pela identifica o de 219 novos genes no cromossomo 22 humano que n o haviam sido detectados previamente por outras an lises bioinform ticas Al m disso o agrupamento de sequ ncias para gera o de consensos facilitado quando s o utilizados ESTs convencionais associados aos ORESTES Esses consensos s o importantes pois muitas vezes cont m toda regi o codificadora o que facilita o processo de anota o g nica em eucariotos Uma vez feito o sequenciamento outra etapa essencial para um projeto genoma a anota o dessas sequ ncias Na maior parte das vezes a anota o inicial feita via compara o das sequ ncias obtidas com os bancos de dados p blicos onde j existem sequ ncias anotadas muitas delas fruto de extenso trabalho de bioqu micos que antecederam a biologia molecular Existem atualmente muitos desses bancos de sequ ncias on line por exemplo o GenBank que podem ser consultados via programas de compara o espec ficos do tipo BLAST Para a maior parte dos projetos genoma a anota o inicial de sequ ncias feita automaticamente usando esses programas de compara o sem que experimentos de bancada wet lab sejam realizados S o os chamados experimentos in silica Pereira 2001 vi ORESTES mai
279. ura 4 40 Esquema do patterm Facade sepine oek a rE ra Rd ta Ti 135 Figura 4 6 1 Fluxo de dados na ferramenta Castor ssssesssseseeeeeeessssssssssesrerrreeesssssssssssseesrereeeesssssssssssserrrreereeesssss 140 Figura 5 7 1 Esquema das intera es do Sistema c eee eeeeeererrreeeecerneeeenaneneeeaaerrereereeec aaa eeaananecenererereresa 150 Figura 5 10 1 Organiza o do Sistema em camadas sesssossoeeseeeeessssssssssssserrrrreeessssssssssssseerreeeeesssssssssssserrrrreeeesssss 153 Figura 5 10 2 Diagrama de classes do mecanismo de persist ncia do Sistema ssssssssssseeeseereesssssssssesrrrrreeessss 154 Figura 5 11 1 Diagrama dos Casos de Uso do ator Pesquisador eeererrrreerereneeerererananeeeeerereree 158 Figura 5 11 2 Diagrama dos Casos de Uso do ator Clock nn eeeeeeeeeererrrreerereaaeeeeaaaaaanaeaaarerereea 159 Figura 5 11 3 Diagrama de Atividades Visualizar alinhamento pairwise eessssssssssssssssssseeeeeessssssssssssrerrrereeesssss 162 Figura 5 11 4 Diagrama de Atividades Construir alinhamento m ltiplo eeeeeeeeeeeeeeerrrreee 165 Figura 5 11 5 Diagrama de Atividades Predizer estrutura secund ria de proteina ierrreee 167 Figura 5 11 6 Diagrama de Atividades Derivar rvore filogen tica sssooosossseesesssssssseerrrreeesssssssssssssrerrrereeessss 169 Figura 5 13 1 Sistema BLO
280. uran a e concorr ncia Pappas 2002 Esta plataforma bem mais que uma simples linguagem de programa o est sendo utilizada para o desenvolvimento dos programas deste trabalho de Disserta o numa intera o muito estreita com a linguagem XML A vers o escolhida a J2SDK1 4 1 129 que j se encontra est vel e traz embutida o Java Web Start visando facilitar o acesso remoto aplica o 4 4 DESIGN PATTERNS E ORIENTA O A OBJETOS Sipert 1998 Se se perguntasse para Engenheiros de Software por que a tecnologia de objetos mais recomendada que as suas concorrentes provavelmente a resposta mais freq ente seria reuso Na realidade a reutiliza o de Componentes de software est diretamente relacionada a duas quest es que afetam diretamente os projetistas e os usu rios dos produtos qualidade e produtividade mais r pido montar um software a partir de Componentes predefinidos do que escrever todo o c digo desde o in cio Al m disso o esfor o necess rio para se garantir confiabilidade e ergonomia ao produto durante a fase de testes consideravelmente menor quando o trabalho se fundamenta em elementos pr fabricados Por esse motivo todos concordam que atualmente o ideal desenvolver sistemas orientados a objetos O objeto uma unidade de software auto gerenci vel e com grande potencial para reuso Note se que usada a express o potencial para reuso ou seja o simples fato de usar
281. urirg araf Crigurapa ndio Gicarobd oBenta Qalin diarobd oRitra Enean edute rdurirg araf Figura 0 1 Sistema BLOOM diagrama de seqii ncia do cen rio Predizer estrutura secund ria de prote na 179 Figura 0 2 Sistema BLOOM diagrama de sequ ncia do cen rio Derivar rvore filogen tica 180 6 RESULTADOS O Sistema est parcialmente implementado contemplando o cen rio principal do use case Visualizar alinhamento pairwise e o in cio da integra o com Visualizar alinhamento m ltiplo Com isso j se p de testar a integra o com o BD pairwise XML e com o Sistema Genoma O restante da implementa o seguir o plano de desenvolvimento Embora a implementa o esteja ainda na primeira itera o da fase de Constru o Construction do RUP j poss vel assinalar os resultados ou ganhos tanto para a Bioinform tica quanto para a Inform tica Para a Bioinform tica os resultados s o a Como primeira parte da pesquisa foi necess rio escrever um Tu
282. versa A Natureza contudo extraordinariamente criativa e n o ser surpresa se for descoberto algum organismo que seja capaz de violar a 30 segunda parte do dogma pois j se conhecem DNA e RNA que possuem atividade enzim tica A seguir o esquema e as etapas do processo de s ntese de proteina Figura 0 1 segundo NCBI Primer 2002 e Meidanis e Setubal 1997 una t Duplica Transcri o Tradu o ERR Transcri o reversa Figura 0 1 O Dogma Central revisado da Biologia Molecular Baseado em http sened emc maricopa edu bio bio181 BIOBK BioBookPROTSYn html Replica o ou Duplica o replica o da mol cula de DNA na qual as suas duas cadeias polinucleot dicas se separam e cada uma utilizada como molde para a polimeriza o de uma nova cadeia resultando numa mol cula composta da cadeia original e da rec m sintetizada Vide Figura 0 2 Transcri o objetiva se a produzir uma mol cula de RNA mensageiro mRNA Ao longo de uma cadeia de DNA s o relacionados certos conjuntos de bases que se arranjam de determinada maneira com o processo de transcri o da informa o contida no gene Esses arranjos s o sinais da esquerda para a direita sentido 5 3 downstream Sabe se por exemplo que o gene come ou quando se encontra uma regi o promotora promoter que no entendimento dos cientistas fornece um sinal Logo adiante na sequ ncia vem um gene
283. vices DBStats http www virtual epm br cursos biomo l biom htm Escola Paulista de Medicina 190 ANEXO Em anexo seguem um exemplo de resultado de BLAST no formato XML um diagrama de classes de controle comuns aos Sistemas Genoma e BLOOM e as 5 primeiras telas de acesso ao Sistema BLOOM passando pelo Sistema Genoma Iniciando se nesta p gina e se estendendo pelas pr ximas duas p ginas segue um exemplo de resultado de BLASTn no formato XML para uma sequ ncia de nucleot deos Figura 0 1 O resultado completo preencheu 69 p ginas no formato Word Windows lt xml version 1 0 gt lt IDOCTYPE BlastOutput View Source for full doctype gt lt BlastOutput gt lt BlastOutput program gt blastn lt BlastOutput program gt lt BlastOutput version gt blastn 2 2 4 Aug 26 2002 lt BlastOutput version gt lt BlastOutput reference gt Reference Altschul Stephen F Thomas L Madden Alejandro A Schaffer Jinghui Zhang Zheng Zhang Webb Miller and David J Lipman 1997 Gapped BLAST and PSI BLAST a new generation of protein database search programs Nucleic Acids Res 25 3389 3402 lt BlastOutput reference gt lt BlastOutput db gt nr lt BlastOutput db gt lt BlastOutput query ID gt lIclf 2381 lt BlastOutput query ID gt lt BlastOutput query def gt lt BlastOutput query len gt 446 lt BlastOutput query len gt lt BlastOutput param gt lt Parameters gt lt Parameters expect gt 10 lt Parameters
284. w ncbi nlm nih gov entrez query fegi db nucleotide amp cmd search amp term mus musculus 1 BUO73507 ik64c09 y1 Kaestner ngn3 wt Mus musculus cDNA clone IMAGE 5 mRNA sequence 9i 22514696 gb BUO73507 1 22514696 Figura 1 1 3 Exemplo de execu o do BLAST para uma seqi ncia de nucleot deos Fonte www ncbi nlm nih gov O problema que qualquer resultado do BLAST pode envolver uma an lise de dezenas ou centenas de hits pois s o mostradas todas as sequ ncias similares encontradas no banco de dados sem op o de filtr las por algum valor por exemplo o escore em bits ou pontua o o E value P value a qualidade PHRED o tamanho da sequ ncia dentre outros Com isso muitos pesquisadores tendem a considerar apenas as primeiras ocorr ncias da lista o que pode ser um equivoco bastante grave pois a ordem em que os registros s o apresentados n o garante sua import ncia para um dom nio espec fico conforme Figura 1 1 4 Distribui o dos 121 hits e da segii ncia de busca hd Ta ddge Mus musculus transcription factor Te Toto mA 5s 611 E 0 0 Color Key for Alignnent Scores 0d 1 17481 Q O is ais i a a a a a a a a a a a a a a ai RE E E E RR E E E E a a a a A RR RP A AR PA a a O O E O E Score E Secquences producing significant alignment bits Value gi 477517 gb BC 37097 _1 Huas musculus clone MGC 46891 IM gi 05907T ref M 1349852 1 Mus musculus transcr
285. za o de resultados BLAST BlastView e anota o de sequ ncias de DNA ou prote na AnnotView Foram desenvolvidos pela Universidade da Pensilv nia qual pertencem a propriedade e os direitos autorais Pode se conseguir licen a de uso do BlastView Um estudo mais aprofundado desses componentes ser inclu do como pesquisa futura juntamente com a utiliza o da plataforma J2EE pois se observou o uso de parametriza o de atributos em diversos casos a interface gr fica bastante interativa e tamb m h um modelo simplificado de integra o de an lises No entanto n o se possibilita ao pesquisador a escolha da ferramenta que executar a an lise solicitada b JalView desenvolvido pelo Instituto Europeu de Bioinform tica EBI uma ferramenta escrita em Java vers o 1 1 para analisar padr es de conserva o de res duos em um alinhamento m ltiplo de prote na usando o ClustalW al m de ser um editor interativo de alinhamentos Tamb m agrupa sequ ncias em subfam lias clustering por rvore UPGMA calcula padr o de conserva o de cada grupo atribui cores s sequ ncias conforme par metros selecionados pelo usu rio prediz estrutura secund ria de prote na utilizando o Jpred dentre outras atividades Este editor bastante conhecido e utilizado pelos i BioJava vide http www biojava org um projeto de c digo aberto dedicado a prover ferramentas Java para processamento de dados
Download Pdf Manuals
Related Search
Related Contents
HeatWave Labs Manual Call for Proposals document Manuale d i istruzioni p er l`uso - gamma elettronica ARRI ALEXA Manual de Instrucciones Xerox® WorkCentre™ 6400 Impresora multifunción en color V-10 取扱説明書 Copyright © All rights reserved.
Failed to retrieve file