Home
Support de TD (annotation_genes_2013)
Contents
1. une s quence extraite du g nome du riz que l on va annoter Os01_ 36429 36558 fna raw fg correspondant la sortie du programme FGenesh Os01 36429 36558 fnarepeat qui correspond la sortie du programme RepeatMasker Ex cution de Workflows pour l annotation sous Galaxy Importation du Workflow Dans le menu Shared Data cliquer sur le lien Published Workflows Cliquer sur le lien EuGeneIMM3 2 Training 2013 Importer le workflow dans son environnement Ex cuter le workflow puis l diter pour comprendre sa structure Ce workflow permet de pr dire la structure et la fonction des s quences codant pour des prot ines en se basant sur les modules pr c demment cit s Lancer le workflow partir du fichier Os01 36429 36558 fna et du fichier Os01_ 36429 36558 fna raw fg Description du workflow Pour l annotation structurale Figure 1 2 briques sont utilis es SpliceMachine et EuGene incluant EuGeneIMM Le r sultat d une analyse r alis e sous FGenesh est galement inclus dans Eugene apr s conversion de format GNPAnnot Converters FGenesH SpliceMachine x Nucleotide query sequence output_mst txt gt mm GNPAnnot Converter EuGene 5 output_mad txt nn Fasta file GNPAnnot format sequence Fasta amp j EuGene x EuGene file ne Fasta Mie output_gff gff3 SpliceMachine Mst gt Fasta file output_file
2. Write Amino acids of selected features Select an output file name locus tag_ori faa mettez le num ro du g ne trouv la question 3 Cr ation d une nouvelle entr e personnelle pour l diter Create new entry Entry set name of entry no name masequence Entry set default entry masequence elle apparait en jaune dans la barre de menu Cliquer sur la pr diction de structure d Eugene Edit copy selected feature to masequence Editez le g ne dans l entr e masequence Cliquer sur l objet CDS exons en bleu Menu Edit Selected Features In Editor Ctrl E Corrigez la structure Pour ajouter de nouveaux exons copier coller des positions dans location en respectant le format join b1 e1 b2 e2 b3 e3 b4 e4 b5 e5 Cliquez sur OK V rifiez la jonction GT AG des exons cr s Double cliquez dans l exon que vous venez de cr er sur la carte de la s quence Cela va positionner correctement la vue de l ADN Corrigez les bornes si n cessaire pour respecter la jonction GT AG tout en respectant le cadre de lecture des exons 1 on ne doit pas voir de stop dans les exons barre noire Pour cela en positionnant le curseur sur l extr mit d un exon et en maintenant le bouton gauche appuy vous pouvez tirer ou raccourcir l exon Q11 Selon vous quelles sont les coordonn es correctes des exons du premier g ne 9 BLASTp contre Uniprot InterproScan R cup rez la s quence prot
3. ique du premier g ne annot manuellement Clic droit sur l objet CDS exons en jaune View Amino acids of selection as fasta Copier la sequence sous le nom locus tag cor faa Lancez un navigateur ouvrez deux onglets et aller l adresse suivante http www expasy ch tools blast ou http www uniprot org onglet Blast Copier coller la s quence du fichier locus tag ori faa et de locus tag cor faa dans deux onglets s par s priori les multifasta ne sont pas accept s Lancer le BLASTp en cliquant sur le bouton Run BLAST De la m me mani re vous pouvez lancer un InterproScan pour la recherche de domaines prot iques http www eb1 ac uk Tools pfa iprscan Q12 Observez les alignements votre annotation permet elle d am liorer l alignement Quels indices vous permettent de conclure 10 Annotation fonctionnelle de LOC _Os01g62920 dans Artemis Editez et annotez ce g ne Deuxi me sur le brin antisens not Os01b36429e36558 g0040 par Eugene Cliquez sur la CDS dont la structure a t annot e manuellement pour la s lectionner Menu Edit Selected Features In Editor Ctrl E Analysez vos alignements blastp contre Uniprot Q13 Quelle est l accession Uniprot correspondant votre g ne Q14 Quelle est l accession Uniprot correspondant une annotation de r f rence chez le riz Q15 Gr ce cette annotation retrouvez la r f rence bibliographique permettant de valider la fonction exp riment
4. analyste Les modules bioinformatiques que nous allons utiliser pour l annotation sont les suivants M thodes intrins ques a Splicemachine http bioinformatics psb ugent be webtools splicemachine pr dit les sites d pissage des introns par l utilisation de la m thode dite linear support vector machines LSVM pour classifier les sites d pissage actuels et pseudo sites partir de donn es issues du g nome d Arabidopsis thaliana et du g nome humain b EugeneIMM utilise la m thode IMM Interpolated Markov Modeler pour interpr ter les r gions codantes et non codantes c FGenesh http www softberry com berry phtml est une m thode de pr diction de g nes ab initio bas e sur des m thodes statistiques HMM chaines de Markov cach es avec une phase d apprentissage supervis e M thodes extrins ques a BLAST Basic Local Alignment Search Tool http www ncbi nlm nih gov BLAST identifie des r gions de similarit locale entre s quences Le programme compare des s quences nucl otidiques ou prot iques et calcule la significativit des r sultats BLASTX adresse une requ te de type nucl otide transcrit sur des bases de donn es prot ines type Swissprot ou Trembl BLASTP adresse une requ te de type prot ine sur des bases de donn es prot ines type Swissprot ou Trembl b c TBLASTN adresse une requ te de type nucl otide transcrit sur des b
5. blastp MC x GNPAnnot Converter Blastp Protein query sequence s b A GNPAnnot Converter EuGene 5 LT Blastp1 result Blastp2 result gt Fasta file I 1 gt EuGene file Blastp3 result OEE i T gt EuGene GFF3 result output aff gff3 mam Li yrr EuGene EMBL result output_embl embl outputi_gfi3 g output2_gff3 gff3 output_embl_utr embl output_gene fasta output_cds fasta output3_gff3 gff3 output_pep fasta output_eugene_gff3 gff3 JI output_eugene_embl txt output_region fasta outputl tabular txt html blastxml Figure 2 Workflow Galaxy pour l annotation fonctionnelle Perfectionnement de l annotation structurale Pour pr ciser la structure des g nes pr dits Figure 3 on utilise dans un premier temps une combinaison de TBLASTN et Exonerate sur les bases de donn es EST de riz Oryza sativa et Oryza glaberrima et de sorgho On utilise galement en parall le une combinaison de BLASTX Exonerate et le programme Genome Threader sur la s quence nucl ique largie entre g nes Figure 4 GNPAnnot Converter Exonerate GNPAnnot Converter tBlastn 5 SES x L Source file 20 Exonerate result BLAST tblastn MC am er r T output_gff3 g Protein query sequence s output_embl txt outputl tabular txt htm blastxmi
6. fasta output_embl embl SpliceMachine Mad output_embl_utr embl GNPAnnot Converters FGenesH gt Fgenesh output_gene fasta gt FGenesH output output txt 7 output_cds fasta output_gff3 gff3 gt output_pep fasta output_embl txt gt output_region fasta output_eugene txt Figure 1 Workflow Galaxy pour l annotation structurale de s quence g nomique Le fichier r sultant EuGene result correspond la sortie brute de EuGene Il sert de point de d part l annotation fonctionnelle La brique GNPAnnot Converter Eugene permet en effet d extraire un fichier GFF3 contenant la structure des g nes pr dits et les fichiers multi fasta n cessaire l annotation fonctionnelle Cette brique produit en sortie les fichiers suivants e _ EuGene without functional annotation gff3 e EuGene without functional annotation embl e Gene sequence with intron fasta e Gene Coding Sequence intron less fasta e Region around Gene fasta e Translated Gene Coding sequence fasta Annotation Fonctionnelle Pour attribuer une fonction un g ne pr dit par EuGene Figure 2 la brique GNPAnnot Converter Blastp combine les r sultats de plusieurs sources de BLAST SwissProt MSU Rice genome annotation project Rice MSUv6 1 Prot ome Sorgho extrait de la base de donn e Phytozome et transf re la fonction de la prot ine la plus similaire ainsi identifi e BLAST
7. Oan output_exonerate txt FT GNPAnnot Converter tBlastn 3 RA z SES Re sus paei re er ete Source file 7 Exonerate result O Protein query sequence s E output_ gff3 Tofa gt dti en anoons lt rene T o OE output tabular xt html blastemD G output exonerate xt Po uput exonerate tu G output embl x g GNPAnnot Converter tBlastn BLAST tblastn MC x Exonerate x GNPAnnot Converter Exonerate rar tBlastn result T gt Source file Protein query sequence s RSR ca Exonerate result i f output Jff gff3 ne outputl tabular txt html blastxml gt DIE output gff af 7 output_exonerate txt A one 0 utput_exonerate 1x Y output_embl txt D L Figure 3 Workflow Galaxy pour am liorer l annotation structurale partir des s quences prot iques des g nes pr dits GNPAnnot Converter x 5 a GenomeThreader Genome Threader x l GenomeThreader Result Nucleotide query 1 sequence output_gff gff3 v output txt output_gth_eugene txt Genome Threader x GNPAnnot Converter x GenomeThreader Nucleotide query sequence GenomeThreader Result output txt g output_gff gff3 output_gth_eugene txt GNPAnnot Converter Blastx GFF3 BLAST blastx MC x g B
8. South Green bioinformatics platform Annotation de s quences g nomiques Exemple d une r gion du chromosome 1 de riz autour du g ne qSH1 Os _1 36429001 36558000 Il Annotation de g nes codant des prot ines 1 Objectif du TD L objectif du TD est d identifier sur une grande r gion g nomique l ensemble des structures codant potentiellement pour des prot ines au travers d un ensemble de m thodes d annotation intrins ques pr diction ab initio de structures codantes et extrins ques faisant appel aux bases de donn es existantes La comparaison des r sultats obtenus avec diff rentes m thodes bioinformatiques laisse apparaitre parfois des divergences sur le nombre de s quences codantes potentielles et ou sur leurs bornes L utilisation de l diteur Art mis permet de mettre en vidence ces diff rences et de r aliser soi m me un travail de correction manuelle de l annotation Au del d informations structurales sur la r gion g nomique consid r e il est possible d acqu rir des informations fonctionnelles au travers de m thodes extrins ques par similarit des s quences et recherche de domaines prot iques conserv s signatures En fonction de la significativit des r sultats le r sultat du produit des polypeptides va tre attribu avec plus ou moins de confiance L diteur Art mis permettra de valider et d enrichir cette annotation fonctionnelle en fonction de l expertise du bio
9. ale du polypeptide Q16 Au vu de l ensemble des ressources votre disposition corrigez compl tez et finalisez l annotation fonctionnelle du polypeptide Dans le corps d Artemis Feature Edit vous pouvez remplir les champs correspondants Sauvez vos donn es une derni re fois en l enregistrant au format EMBL
10. ases de donn es nucl otide transcrit type NR s quences non redondantes EST Expressed sequence Tag ou des g nomes complets Genome Threader http www genomethreader org pr dit des structures de g nes au travers de similarit s avec des ADNc ou EST et ou des s quences prot iques align es alignements consensus tenant compte des pissages Il utilise un exciseur d introns et un mod le Baysian Splice Site Models BSSMSs pour identifier les limites exons introns Exonerate http www ebi ac uk guy exonerate est un outil d alignement de s quences deux deux Il est capable de prendre en compte diff rents mod les d alignements avec notamment la possibilit d aligner un EST contre une s quence g nomique ou bien une s quence prot ique contre un g nome EuG ne http eugene toulouse inra fr est un outil d int gration des modules pr c dents dans le processus d annotation Il produit en sortie une pr diction de score maximal c est dire la plus consistante possible avec les informations fournies par chacun des modules 2 Executions de workflows sous Galaxy pour la pr diction automatique de g nes codant pour des prot ines R cup ration des donn es de s quence g nomique Sous Galaxy dans le menu Shared Data Data Librairies r cup rer les fichiers du r pertoire Formation TD Annotation 2013 Input Os01 36429 36558 fna Fichier fasta qui correspond
11. es fichiers Nom de fichier Galaxy ___ EuGene EMBL txt A la question there were warnings while reading view now r pondez Non ou oui si vous voulez voir les avertissements sur le format des annotations Ouvrir le fichier A partir de la fen tre d dition de l entr e Os 1 36429 36558 fna cliquez sur le menu File Read An Entry Nom de fichier Galaxy ___ FGenesH_ embl txt Nom de fichier Galaxy ___ Exonerate OG ngs EMBL txt Nom de fichier Galaxy ___ Exonerate OS mrnas EMBL txt Nom de fichier Galaxy __ Exonerate SB mrnas EMBL txt Nom de fichier Galaxy ___ Exonerate Rice EMBL txt Nom de fichier Galaxy __ Exonerate Sorgho EMBL txt Nom de fichier Galaxy __ Exonerate SwissProt EMBL txt Nom de fichier Os01 36429 36558 fna repeat NB Si vous avez besoin de retirer une entr e Menu Entry Remove An Entry choisissez le fichier retirer Pour faciliter la visualisation des r sultats Clic droit sur la carte de la s quence Cocher One Line Per Entry D cocher Feature Labels Q1 Combien de structures codantes sont elles pr dites par Eug ne Cliquez sur l objet CDS exons en jaune du premier g ne pr dit par EuG ne pour le s lectionnez Menu Edit Selected Features In Editor Ctrl E Q2 Quel est le num ro du g ne identifiant ou locus_ tag Sur quel chromosome du Riz se trouve la r gion tudi e 4 Fgenesh Nom de fichier Galaxy ___ FGenesH_ embl txt Q3 Q
12. lastx result Exonerate x GNPAnnot Converter Exonerate as ult Nucleotide query sequence s L E3 Source file Exonerate result CRT output_gff3 txt f output1 tabular txt html blastxml N d ctide re k je se output_embl txt ucleotide region arroud gene output_gff3 gff3 output_exonerate txt output exonerate EXD p output_embl txt ot Converter Blas ee RES 5 E E E Exonerate x GNPAnnot Converter Exonerate BLAST blastx MC S Blast resul L Le DEA ee A er res astx result DS file es f 2 Source file Exonerate result gt Nucleotide query sequence s Ut off3 xD output_gff3 txt Nucleotide region arroud gene output_gff3 gff3 output1 tabular txt html blastxmil 1 iia a output_embl txt output_exonerate txt 9 output_embl txt output_exonerate txt n GNPAnnot Converter Blastx GFF3 Exonerate b GNPAnnot Converter Exonerate BLAST blastx MC Blastx result gt Source file Exonerate result Nucleot de query sequence s output_gff3 txt Nucleotide region arroud gene output_gff3 gff3 output1 tabular txt html blastxml output_embl txt output_exonerate txt gt output_embl txt I f output_exonerate txt Figure 4 Workflow Galaxy pour am liorer l annotation structurale partir des s quences nucl iques largies des g nes R cup ration des fichiers de sortie du workflow R cup rer les fichiers de sortie suiva
13. nts e FGenesH embl Fichier au format EMBL du logiciel FGenesH e EuGene EMBL Fichier au format EMBL du programme EuGene e Exonerate OG_ngs EMBL Fichier EMBL correspondant la combinaison des programmes tBlastn Exonerate sur les contigs de Riz ssp glaberrima e Exonerate OS_mrnas EMBL Fichier EMBL correspondant la combinaison des programmes tBlastn Exonerate sur la banque d EST Riz ssp japonica e Exonerate SB_mrnas EMBL Fichier EMBL correspondant la combinaison des programmes tBlastn Exonerate sur le banque d EST sorgho e Exonerate Rice EMBL Fichier EMBL correspondant la combinaison des programmes Blastx Exonerate sur le prot ome du Riz MSU version 6 1 e Exonerate SwissProt EMBL Fichier EMBL correspondant la combinaison des programmes Blastx Exonerate sur la banque UniProtKB SwissProt e Exonerate Sorghum EMBL Fichier EMBL correspondant la combinaison des programmes Blastx Exonerate sur le prot ome du Sorgho 3 Visualisation des r sultats sur Artemis R cup rer si ce n est d j fait l diteur artemis jar pour Windows par exemple sur le site du Sanger http www sanger ac uk Software Artemis Lancer Artemis en double cliquant sur l ic ne Le manuel d utilisation se trouve l adresse http www sanger ac uk Software Artemis v11 manual artemis manual _complete html A partir de la fen tre de lancement cliquez sur le menu File Open Fichiers du type Tous l
14. uelles sont les diff rences de structure entre la pr diction EuG ne et celle de Fgenesh A quoi cela peut il tre d 5 TBLASTN Exonerate contre les transcriptomes Nom de fichier Galaxy __ Exonerate OS mrnas EMBL txt Nom de fichier Galaxy ___ Exonerate OG ngs EMBL txt Nom de fichier Galaxy __ Exonerate SB mrnas EMBL txt Q4 Peut on mettre l hypoth se que ce premier g ne est exprim Chez Glaberrima chez le sorgho Q5 Quelles sont les diff rences de structure entre la pr diction EuG ne et celles d Exonerate 6 BLASTXx Exonerate contre prot ome du sorgho Nom de fichier Galaxy ___ Exonerate Sorghum EMBL txt Q6 Comment exploiter ce r sultat pour rechercher de la microsynt nie entre cette r gion du riz et les chromosomes du Sorgho Q7 Sur quel s chromosome s du sorgho se trouvent des r gions synt niques potentielles Q8 Quelles sont les diff rences de structure entre le premier g ne pr dit par EuG ne et celle d Exonerate 7 BLASTX Exonerate contre UniprotKB Swissprot Nom de fichier Galaxy ____ Galaxy __ Exonerate SwissProt EMBL txt Q9 Est ce que les r sultats attendus correspondent aux r sultats observ s Q10 Quelles sont les diff rences de structure entre la pr diction EuG ne et celle d Exonerate 8 Annotation structurale dans Artemis Commencez par mettre de c t la s quence prot ique du premier g ne Clic droit sur l objet CDS exons en bleu
Download Pdf Manuals
Related Search
Related Contents
Guia do Usuário do TurningPoint NSi Mobile Installation Guide HEPATITIS A – HAV-IgM UM10759 - NXP Semiconductors My Little Steamer® Use and Care Manual to the PDF file. - What is Al Frigidaire FPHD2491 User's Manual Téléchargement - Association Stop suicide HXSP-1002 - Hexin Technology Copyright © All rights reserved.
Failed to retrieve file