Home

Stratégies de recherches de phénomènes d`interactions

image

Contents

1. P To gt D 1 a n P im gt 1 a a en P im lt a a en xP i gt 1 a 2 11 si Pon suppose y gt 0 P ee gt 1 a 2 ae m P lt gt 1 a 2 aF m o e N 0 1 69 5 2 5 2 1 Chapitre 5 La gestion des tests multiples 1 s70 a 2 a ce qui d pend du param tre y du risque a et du nombre d observations par var Comment augmenter la puissance de d tection d un test e en am liorant le mod le ou la statistique du test pour tre plus en phase avec la r alit e en augmentant le nombre d observations plus on accumule des observations plus la statistique s loignera de la distribution de hypoth se sous laquelle on ne se trouve pas e en acceptant un risque a plus important lorsque l on est sous HO e en recherchant des effets forts plut t que des effets faibles Les deuxi me et troisi me points sont ceux sur lesquels on peut influer lorsque l on effectue plusieurs tests en combinant certains ou en effectuant des s lections ou des pond rations C est ce que l on va voir maintenant Combiner des tests M me principe que combiner des observations Le r sultat d un test par exemple la p value peut aussi tre vu comme une observation et comme pour une seule observation il est possible qu un unique test ne permette pas de diff rencier nos hypoth ses mais que la combinaison de plusieurs tests le puisse C est ce que
2. Ce document se d compose en les chapitres suivants 1 Le fonctionnement du vivant 2 La variabilit g n tique 3 L pid miologie g n tique 4 Les tests statistiques 5 La gestion des tests multiples 6 Les donn es pid miologiques utilis es 7 A la recherche de ph nom nes d interactions dans la maladie thromboembolique veineuse 8 Cap sur la recherche de polymorphismes li s aux microARNs 9 Discussions et perspectives Dans les trois premiers chapitres j introduis les concepts biologiques chapitre 1 et 2 et expose le contexte scientifique chapitre 3 qui me semblent n cessaires a la compr hension du document Les trois chapitres suivants introduisent les m thodes statistiques chapitres 4 et 5 et les tudes chapitre 6 que j ai utilis es dans mes travaux de recherche Les chapitres 7 et 8 pr sentent les r sultats de ces travaux enfin dans le dernier chapitre je discute ces r sultats et propose quelques perspectives a mon travail de th se Jai essay tout au long du document de garder une certaine homog n it dans la construction de mes graphiques notamment dans les couleurs et le fl chage Vous pouvez commencer a vous y familiariser en jetant un oeil a la figure 1 qui vise en particulier 4 vous expliquer les significations des diff rentes fleches que vous rencontrerez bient t En esp rant ne pas choquer le lecteur averti habitu aux th ses plus ardues je vous souhaite mesdames me
3. LZ7 0 890 0 7800 YL0 0 L90 0 607 0 LET 0 190 0 5 2 2U 1 4 1 2U 1 4 1 9209 9491 2209 19 01 a2uasajad 2209 9491 66 0 Yy 5 614 SIS LdI1447 9VHdDd ZAT z SLVTA vY94LLLLSA LSOLLESA 1 suoissa1dx3 BUaD UO sp gt oyo od jojdeH sopusnbs1 d ojdeH suisiydiow jog 9t L N Apnis u 29H Bisquoyno y Ul SN20 SLbzL ou 32 9 LLIS1 pue ZS9ZL ESI BY WO4 PSANUSP SspP y edAjo deH 9 sIqel September 2012 Volume 7 Issue 9 e45863 PLOS ONE www plosone org and YEATS4 expression strongly associated with increased levels of NODI p 8 30107 and decreased levels of the eight other genes with p values ranging from 2 21x10 to 2 52x107 8 Table 6 These results suggest that the associations observed at the 12q15 locus are much more complex as initially hypothesized It appeared that YEATS4 and LYZ expressions could be under the influence of a common cis eSNP but the latter would also be additionally influenced by a miSNP contributing to trans associ ations As discussed in the following paragraph further investi gating including molecular experiments are required to dissect this complex pattern of association Two interactions miSNPs x 3utrSNPs were robustly identified the first involving HLA DPBI rs1042448 and hsa mir 219 1 rs107822 the second the H FO rs1894644 and hsa mir 659 85750504 In both cases the identified 3 UTR rare alleles were found to strongly increase the
4. 0 14 0 09 0 02 0 83 6 6 10 0 89 1 4 10 0 98 0 37 0 21 0 89 186703198 rs10084192 15439205 753117222 15257095 1s10084192 1s6000905 181894644 182350780 1s9910052 18262407 1s10084192 rs2038123 rs6121015 15257095 1510084192 0 30 0 29 0 07 0 25 0 02 0 11 0 10 0 07 0 23 8 9 10 0 44 1 0 10 0 53 0 50 0 24 0 44 FIGURE 8 14 Les associations dans Cardiogenics s par ment chez les cas et les t moins pour les huit interactions significatives dans GHS et r plicables dans Cardiogenics 114 9 1 9 1 1 Chapitre 9 s et perspectives Je d teste les discussions elles vous font parfois changer d avis Oscar Wilde Les deux chapitres pr c dents ont pr sent les r sultats de mes recherches de ph nom nes d interactions entre polymorphismes dans le cadre des maladies multifactorielles Ce chapitre a pour objectif de discuter ces r sultats de donner de nouvelles perspectives de recherches et de proposer quelques hypoth ses pour expliquer ce que nous avons observ Rappelons pour commencer que notre objectif n tait pas de tester ou comparer l ensemble des m thodes de d tection d interaction SNP SNP disponibles cela n aurait de toute fa on pas t possible mais de tenter plusieurs strat gies de recherche et d appliquer plusieurs m thodes permettant d en augmenter la puissance Sur la recherche d
5. Dans une population si un polymorphisme a deux all les un SNP par exemple A et a avec des fr quences respectives f et 1 f alors en supposant que les couples de parents se forment al atoirement on s attendrait pour un individu donn a ce que ses all les lui aient t transmis de mani re ind pendantes et donc que sa probabilit d avoir le g notype AA soit f Aa 2f 1 f et aa 1 f C est ce que Yon appelle l quilibre d Hardy Weinberg 46 Il peut arriver parfois que certains polymorphismes ne semblent pas respecter cet quilibre Une telle situation pourrait s expliquer si le polymorphisme en question est sujet s lection par exemple si il a un effet r cessif fort sur une maladie mortelle provoquant une sous repr sentation 61 Chapitre 4 Les tests statistiques des individus homozygotes pour l all le risque Cependant il est souvent bien plus probable que ce d s quilibre provienne d une erreur lors du g notypage Aussi souvent les pid miologistes tendent a ne pas garder les polymorphismes qui ne v rifient pas l quilibre d Hardy Weinberg dans les analyses Le test d Hardy Weinberg est un test statistique visant a d tecter si un polymorphisme s carte de cet quilibre La statistique du test Il existe plusieurs statistiques pour tester l cart l quilibre d Hardy Weinberg La statistique H la plus utilis e est assez intuitive puisqu elle s
6. 151163073 NA 0 013 4 12 10 8 2010 0 015 NA 24210 2 39 10 1 29 10 2 33 10 77510 6 03 10 0 086 NA 2 03 10 2 78 10 24410 3 71 10 0 055 2 5310 NA NA NA NA 0 028 8 45 10 7 314 NA 8 90 10 2 08 10 NA 3 7410 7210 NA 15410 6 65 10 7 56 10 2 67 10 52310 7 7 83 10 2 51 10 NA 3 27107 181463335 hsa mir 1279 12 69667075 JILMN_1792568 KRT9 17 39722092 39728309 NA 15317657 0 04 0 006 1 1510 NA NA rs998022 0 11 0 016 1 1110 rs1463335 hsa mir 1279 12 69667075 ILMN_1667361 COPZ2 17 46103532 46115151 rs17617053 rs317657 0 03 0 005 23310 7 6810 0 00 rs998022 0 10 0 011 20610 6 5110 9 23107 44710 9 69 10 3 1810 NA NA NA NA NA NA 1 46 10 7 66 10 2 63 107 2 21 10 8 3 L association de ces SNPs sur l expression des g nes peu ce probl me d interpr tation nous avons recherch les SNPs proches moins d un million de bases et les plus associ s aux expressions des g nes concern s dans GHS Ils seront appel s par la suite best cis SNPs Six des proxy miSNPs impliqu s dans les 48 cis associations sont galement des best cis SNPs Pour les 42 autres associations on a essay de savoir si celles ci taient ind pendantes de l association avec le best cis SNP en ajustant les mod les avec ce best cis SNP Ceci a eu pour cons quences de faire dispara tre 35 associations L hypoth se d une action
7. 17 18 19 20 21 124 Bateson W amp Punnett R On the inter relations of genetic factors Proceedings of the Royal Society of London Series B 84 3 8 1911 cf p 26 Benjamini Y amp Hochberg Y Controlling the false discovery rate a practical and powerful approach to multiple testing Journal of the Royal Statistical Society Series B Methodological 289 300 1995 cf p 67 Benson D A Karsch Mizrachi I Lipman D J et al GenBank Nucleic acids research 39 D32 7 2011 cf p 32 Berman H M The Protein Data Bank Nucleic Acids Research 28 235 242 2000 cf p 32 Bernstein B E Birney E Dunham I et al An integrated encyclopedia of DNA elements in the human genome Nature 489 57 74 2012 cf p 10 Bonferroni C Teoria statistica delle classi e calcolo delle probabilita Pubblicazioni del R Istituto Superiore di Scienze Economiche e Commerciali di Firenze 8 3 62 1936 cf p 67 Bostjancic E Zidar N Stajer D et al MicroRNAs miR 1 miR 133a miR 133b and miR 208 are dysregulated in human myocardial infarction Cardiology 115 163 9 2010 cf p 100 Bousquet M Harris M H Zhou B et al MicroRNA miR 125b causes leukemia Proceedings of the National Academy of Sciences of the United States of America 107 21558 63 2010 cf p 119 Brouwer J L P Veeger N J G M Kluin Nelemans H C et al The pathogenesis of venous thromboembolis
8. Ces suppressions peuvent varier d un ARN l autre donnant lieu des pissages dits alternatifs LARN r sultant de la transcription s appelle ARN primaire preARN alors que celui issu de l pissage s appelle PARN mature A la fin de l pissage l ARN mature est compos de trois r gions principales La r gion non traduite situ e l extr mit 5 de PARN 5 UTR pour 5 UnTranslated Region la r gion codante situ e au milieu et la r gion non traduite situ e l extr mit 3 de PARN 3 UTR Les deux r gions 5 UTR et 3 UTR sont des l ments cl s de la r gulation de l expression du g ne Les prot ines Cet ARN mature est ensuite transport l ext rieur du noyau de la cellule o il fournira le mode d emploi de fabrication de la prot ine lors de ce que l on appelle la traduction cf figure 1 4 LARN mature contient alors la s quence codante des 1 La r gion codante commence par le triplet de nucl otides ATG et se termine par un autre triplet appel codon stop Chapitre 1 Le fonctionnement du vivant transcription de l ADN d un g ne en ARN l int rieur du noyau traduction de l ARN en prot ine l ext rieur du noyau formation de la prot ine une mol cule complexe aux fonctions diverses dans ou l ext rieur de la cellule cellule FIGURE 1 4 LADN est transcrit en ARN qui est lui m me traduit en prot ine p
9. G A 0 08 0 04 0 09 0 05 0 08 0 05 0 05 91 95 92 98 100 9 p 2 73 105 p 9 4510 p 1 90 10 p 6 89 105 FIGURE 7 6 Effet des alleles des SNPs rs9804128 et rs4784379 en interaction sur le risque de thrombose veineuse et le niveau plasmatique de facteur VIII Dans MARTHA le niveau de facteur VIII a t mesur pour 699 patients P value du terme d interaction entre les deux SNPs sous un mod le logistique de risque de thrombose veineuse avec des effets all liques additifs P value obtenue par la m ta analyse des deux tudes P value du terme d interaction entre les deux SNPs dans le mod le d association lin aire avec le taux de facteur VIII ajust sur l ge le sexe le groupe sanguin ABO ainsi que la pr sence des mutations des g nes F2 et F5 En regardant ces r sultats au niveau g notypique figure 7 7 on peut observer que les taux de facteur VIII les plus lev s concernent les individus de g notypes GA AA GG AA ou GG AG pour les SNPs rs9804128 rs4784379 Ces combinaisons sont celles pour lesquelles les individus sont assur ment porteurs de l haplotype G A Enfin en termes d odds ratios l association entre le SNP rs4784379 all les G ou 93 7 5 7 5 1 Chapitre 7 la recherche de ph nom nes d interactions dans la maladie thromboembolique veineuse 184784379 rs9804128 AA AG GG AA 115 91 32 80 132 70 49 75 136 16 51 35 N 34 N 231 N 321 GA 155 93 77 17
10. MAGI2 we SASH1 ZIP8 Pour tous les SNPs des Pour chaque g ne des s quences s quences d ADN contenant d ADN compl mentaire l ARN chacun de ses all les sont au du g ne sont au pr alable pr alable int gr es la puce int gr es la puce L chantillon d ADNc ou d ADN fragment est plac sur la puce BAI3 HOMER1 Les fragments d ADN fluorescents Les fragments d ADNc fluorescents k dde s hybrident mieux aux s quences avec des SENES CXPIUNES S hybrident l all le qui leur est compl mentaire aux s quences correspondantes Analyse de la fluorescence afin de conna tre le g notype ou les niveaux Z d expression de l individu FIGURE 3 3 La technologie des puces ADN et ARN A gauche l individu semble tre de g notype homozygote TT pour l un des SNPs de la puce A droite il semble que les g nes HOMER1 BAI3 et SASH1 soient exprim s au contraire des g nes MAGI2 LYZ et ZIP8 permettre de d tecter les g nes impliqu s dans certains ph notypes En effet si l on observe que les individus qui ont un g ne tr s exprim ont des ph notypes 1 Pour illustrer la technologie des puces ARN j ai choisi ici d utiliser des noms de g nes faisant r f rences aux travaux de certains coll gues que j ai crois s ou au d sormais plus long sitcom en termes d pisodes de l histoire de la t l vision 150 29 3 1 5 Chapitre 3 L pid miologie g n tique diff
11. s Genome Health Study PLoS Genet 6 e1000981 Barenboim M Zoltick BJ Guo Y Weinberger DR 2010 MicroSNiPer a web tool for prediction of SNP effects on putative microRNA targets Hum Mutat 31 1223 1232 John B Enright AJ Aravin A Tuschl T Sander C et al 2004 Human MicroRNA targets PLoS Biol 2 e363 Maragkakis M Reczko M Simossis VA Alexiou P Papadopoulos GL et al 2009 DIANA microT web server elucidating microRNA functions through target prediction Nucleic Acids Res 37 W273 276 Krek A Grun D Poy MN Wolf R Rosenberg L et al 2005 Combinatorial microRNA target predictions Nat Genet 37 495 500 Stranger BE Nica AC Forrest MS Dimas A Bird CP et al 2007 Population genomics of human gene expression Nat Genet 39 1217 1224 Dixon AL Liang L Moffatt MF Chen W Heath S et al 2007 A genome wide association study of global gene expression Nat Genet 39 1202 1207 Schadt EE Molony C Chudin E Hao K Yang X et al 2008 Mapping the genetic architecture of gene expression in human liver PLoS Biol 6 e107 Goring HH Curran JE Johnson MP Dyer TD Charlesworth J et al 2007 Discovery of expression QTLs using large scale transcriptional profiling in human lymphocytes Nat Genet 39 1208 1216 Cordell HJ 2009 Detecting gene gene interactions that underlie human diseases Nat Rev Genet 10 392 404 Sivakumaran S Agakov F Theodoratou E Prendergast JG Zgaga L et al 2011 Abundant pleiotropy
12. soumis A genome wide search for common SNP x interactions on the risk of venous thrombosis Greliche et al BMC Medical Genetics BMC Medical Genetics RESEARCH ARTICLE Open Access A genome wide search for common SNP x SNP interactions on the risk of venous thrombosis Nicolas Greliche Marine Germain Jean Charles Lambert William Cohen Marion Bertrand Anne Marie Dupuis Luc Letenneur Mark Lathrop Philippe Amouyel Pierre Emmanuel Morange David Alexandre Tr gou t Abstract Background Venous Thrombosis VT is a common multifactorial disease with an estimated heritability between 35 and 60 Known genetic polymorphisms identified so far only explain SNP A toi qui t appr tes me lire ou plus probablement me feuilleter xi xii nt Propos Durant mes trois ann es de th se j ai eu le plaisir en plus de mon travail de recherche d encadrer un projet statistique a l Ensai mon ancienne cole et d effectuer une mission compl mentaire d enseignement C est ce que l on appelait autrefois le monitorat Cette mission permet a tout th sard d arrondir un peu ses fins de mois en lui proposant une premi re exp rience d enseignement Dans mon cas cette mission a consist donner des TD et des TP de statistique des tudiants de deuxieme et troisieme ann e de licence de biologie Dans le m me temps j ai aussi beaucoup r fl chi J ai r fl
13. 0 2 0 4 0 4 0 2 0 4 0 4 0 2 0 4 0 4 0 2 0 4 0 2 0 2 0 4 0 2 0 2 0 4 0 2 0 2 0 4 0 2 0 2 0 4 0 2 0 2 0 4 0 2 0 2 0 4 0 2 0 2 0 4 0 2 0 2 1 1 1 1 1 1 2 0 2 0 2 0 1 1 1 1 1 1 2 0 2 0 2 0 1 1 1 1 1 1 2 0 2 0 2 0 1 1 1 1 1 1 2 0 2 0 2 0 FIGURE 7 3 R sultats des simulations D D ND ND ND ND A A ARA A AAR CG GC GC O1 01 U1 U1 1 U1 1 E 12 1 E 12 1 E 12 1 E 12 1 E 12 1 E 12 1 E 12 1 E 12 1 E 12 1 E 12 1 E 12 1 E 12 1 E 10 1 E 10 1 E 10 1 E 10 1 E 10 1 E 10 1 E 10 1 E 10 1 E 10 1 E 10 1 E 10 1 E 10 7 2 2 Effets d tectables et non d tectables dans EOVT 1 00 0 96 0 83 1 00 0 64 0 64 0 86 0 35 0 11 0 71 0 10 0 06 1 00 0 94 0 75 1 00 0 65 0 58 0 18 0 03 0 00 0 11 0 01 0 00 1 00 0 99 0 88 1 00 0 71 0 68 0 90 0 33 0 07 0 76 0 04 0 03 1 00 0 98 0 79 1 00 0 71 0 61 0 16 0 02 0 00 0 08 0 00 0 00 Les puissances simul es et calcul es tant tr s proches quelque soit les fr quences odds ratios ou seuils de significativit choisis ces simulations m ont permis de 1 Ici j appelle effet marginal l effet estim d un SNP seul sans autre effet de SNPs ni terme d interaction 89 Chapitre 7 A la recherche de ph nom nes d interactions dans la maladie thromboembolique veineuse m assurer de la pertinence de mes calculs tant donn le lien troit existant entre la puissance d un test d interacti
14. 0 63 p value 5 24 x 10762 A Vinverse s il se trouve avec l all le A du miSNP cette augmentation est fortement r duite p value 2 68 x 10 et ne passe plus le seuil de significativit B 0 05 p value 0 23 GHS Cardiogenics 5 0 4 4 8 4 97 4 96 4 67 4 6 7 4 49 4 47 sti 44 4 4 36 4 33 l E fi C C T T C C T T rs107822 proxy rs1042448 proxy 4 gt gt T A T A Fr quence de l haplotype 0 68 0 09 0 06 0 17 0 67 0 09 0 07 0 17 FIGURE 8 11 Niveaux d expressions du g ne HLA DPB1 dans le monocyte selon les haplotypes d riv s du 3utrSNP rs1042448 du g ne HLA DPB1 et du miSNP rs107822 du microARN hsa mir 219 1 La paire de SNPs rs1042448 rs107822 est repr sent e par la paire rs3128923 rs213208 dans GHS et par la paire rs3117222 rs439205 dans Cardiogenics Interaction H1F0 hsa mir 659 Localisation La seconde interaction r pliqu e dans Cardiogenics implique le 3utrSNP rs1894644 du g ne H1F0 et le miSNP rs5750504 du microARN hsa mir 659 Ces deux SNPs ne sont pas sur la puce de GHS et sont repr sent s par les proxySNPs rs763137 et rs2899293 pour le 3utrSNP et le miSNP respectivement Le 3utrSNP rs1894644 est en revanche pr sent sur la puce de Cardiogenics o le proxySNP rs6000905 fut utilis comme marqueur du miSNP rs5750504 voir figure 8 12 Les locus du 3utrSNP et du miSNPs sont distants d environ 40 000 bases et leurs proxy respectifs sont en faible d s quilibre de liaison
15. 141 42 56 03 131 76 47 11 N 16 N 144 N 266 GG 156 00 68 98 150 17 42 90 122 90 60 11 N 4 N 23 N 52 FIGURE 7 7 Moyennes et cart types entre parenth ses des niveaux plasmatiques de facteur VIII par combinaison g notypique des SNPs rs9804128 et rs4784379 Leffectif est pr cis en dessous A et la maladie passe de 1 18 chez les individus porteurs de l all le A pour le SNP 189804128 0 46 chez ceux qui sont porteurs de l all le G voir figure 7 8 A 0 74 1 18 1 04 1 35 0 01 G 0 26 0 46 0 35 0 59 lt 10 FIGURE 7 8 Odds ratios et p value associ e de l association entre le SNP rs4784379 et la thrombose veineuse pour chaque all le du SNP rs9804128 Pond rations et combinaisons Les interactions du chromosome 20 Nous avons ensuite essay de tester quelques m thodes de pond rations ou de combinaison de tests pour tenter d augmenter la puissance de d tection de ph nom nes d interactions Une premi re tape consista effectuer une s lection plus drastique des SNPs d une part afin de r duire les temps de calculs et de faciliter la manipulation des donn es n cessaire ce genre d analyse et d autre part afin de limiter la correction pour tests multiples effectuer sur les r sultats des tests Aussi nous avons opt pour une recherche d interactions entre les SNPs du chromosome 20 uniquement car bien qu il soit relativement petit ce chromosome semblerait pouv
16. 3 76 x 4 32 x 3 52 x 7 36 x ASE 8 61 x 1 92 x 7 24 x 7 24 x 4 59 x 2 28 x 273x 2 32 x 7 94 9 44x 3 27 x 6 84 x 315 9 59 x 9 27 x 2 66 x 1 69 x 105 05 102 05 107 05 107 05 105 05 105 of 105 05 105 05 106 05 10 10 0 31 0 38 0 31 0 47 0 42 0 49 0 46 0 42 0 12 0 29 0 20 0 36 0 44 0 19 0 24 0 16 0 34 0 40 0 27 0 36 0 23 0 47 0 72 0 52 66 66 42 57 60 67 55 44 0 67 0 43 0 67 6 73 107 2 00 x 10 T20 2 95 x 10 7 68 x 10 2 88 x 10 TEI MO 2 98 x 10 7 90 x 10 4 17 x 10 4 17 x 10 3 32 x 10 332x 107 5 49 x 10 9 45 x 10 1 11 x 10 551x108 4 22 x 10 1 40 x 105 9 92 x 10 7 63 x 10 7 95 x 10 0 46 0 30 0 32 0 07 0 39 0 20 0 25 0 17 0 44 0 26 0 11 0 09 0 36 0 37 0 48 0 07 0 40 0 44 0 37 0 75 0 69 0 51 66 0 61 0 61 99 44 0 65 2 04 43 47 0 65 0 47 52 0 71 0 71 4 59 x 10 4 7 19 x 10 3 07 x 105 8 40 x 10 4 31 x 105 1 20 x 10 1 19 x 10 2 20 x 105 1 92 x 10 1 85 x 10 1 63 x 10 3 77 x 10 9 59 x 105 7 11 x10 2 48 x 105 4 38 x 10 5 16 x 10 6 00 x 10 6 00 x 10 OR 1 64 1 54 1 67 2 10 1 50 1 56 0 66 0 49 2 05 1 73 1 73 1 52 1 52 1 74 1 71 1 80 1 60 1 49 0 63 0 40 1 65 0 65 0 67 0 63 1 88 0 43 1 86 0 58 0 58 2 13 1 50 0 62 2 03 2 22 1
17. CC CT ou TT Suivant l hypothe se faite sur l effet du g notype sur le caract re tudi on choisira un codage du g notype plut t qu un autre En g n ral on utilise l un des trois codages suivants e 0 1 1 pour CC CT TT lorsque l on fait hypoth se d un effet domin par Vall le T lall le C sera alors r cessif A ce moment la soit l individu a une ou plusieurs copies de l all le T et l on pense que l on devrait observer l effet de l all le T soit il n en a aucune et l effet ne devrait pas tre per u e 0 0 1 lorsque l on fait au contraire l hypoth se d un effet domin par l all le C e 0 1 2 lorsque l on met l hypoth se d une codominance avec un effet interm diaire lorsque le g notype est CT On parlera aussi d effet additif car on peut l interpr ter comme une accentuation de l effet mesure que le nombre de copies de l all le T ou C augmente Codage des g notypes en 0 1 2 Dans tout mon travail de th se j ai choisi d utiliser un codage additif Les raisons en sont d une part biologiques car une bonne partie de mon travail de recherche a port sur l influence des polymorphismes g n tiques li s aux microARN sur le transcriptome et l on peut imaginer qu tant donn le caract re quantitatif de l effet d un microARN il r gule la production de prot ine d un g ne les all les d un SNP li un microARN auraient plut t tendanc
18. MARTHAO8 est compos de 1 006 patients recrut s entre 1994 et 2008 et g notyp s avec la puce a ADN Illumina Human 610 Quad alors que le second MARTHAIO consiste en 586 patients recrut s entre 2008 et 2010 et g notyp s avec la puce a ADN Illumina Human 660W Quad 39 87 Les patients de l tude MARTHA ont t compar s un groupe de t moins provenant de l tude prospective des 3 cit s 3C L tude des 3C avait pour objectif d investiguer les ventuels liens entre la d mence et les facteurs de risque vasculaires Elle est compos e de sujets sains de plus de 65 ans recrut s al atoirement entre janvier 1999 et mars 2001 a partir des listes lectorales de trois villes frangaises Bordeaux Montpellier et Dijon 1 L chantillon des t moins utilis dans ce projet de th se est compos de 1 140 individus tir s al atoirement parmi les 8 707 sujets de l tude des 3C ne pr sentant aucune maladie chronique apparente et pour lesquels un pr l vement sanguin avait t r alis Afin d viter la pr sence d individus apparent s ou d origine non europ enne un filtrage des donn e a t effectu par clustering et positionnement multidimensionnel MDS si bien qu apr s avoir gard uniquement les individus dont le taux de g notypage r ussi tait sup rieur 95 les analyses qui suivent portent pour cette tude sur 1 542 cas et 1 110 t moins 870 hommes et 1 782 femmes Crit res de qualit des SNP
19. OPNISW TPK1 FKBP14 PON2 MIR96 KCNH2 AQP1 SLC25A13 CEP41 PRKAG2 GHRHR CYP3A5 ATP6VOA4 DNAJB6 PPP1R17 AP4M1 TAS 2R38 BBS9 ACHE CNTNAP2 BMPER SERPINE1 NPSRI1 PLOD3 TBX20 SLC26A5 RELN SLC26A4 SLC26A3 Source adapt de http genome ucsc edu FIGURE 3 7 Genes du chromosome 7 pour lesquels on conna t une ou plusieurs mutations responsables de maladies mend liennes d apr s la base de donn es OMIM Online Mendelian Inheritance in Man 153 35 3 2 2 Chapitre 3 L pid miologie g n tique de risque Lob sit le diab te les maladies cardio vasculaires la schizophr nie ou encore la maladie d Alzheimer sont quelques exemples de maladies complexes Bien qu elles soient responsables d une part de plus en plus importante des d c s dans le monde on ne connait encore que tr s peu leurs d terminants notamment g n tiques et le grand nombre de GWAS r alis es n a pour l instant permis d expliquer qu une faible part g n ralement inf rieure a 10 de leur h ritabilit voir la figure 2 2 pour les estimations d h ritabilit pour certains traits complexes Cela pousse se demander pourquoi nous n arrivons pas a expliquer totalement cette h ritabilit 75 Les possibles causes de cette h ritabilit manquante Des polymorphismes plus difficiles trouver que Charlie O est Charlie O est Charlie est une s rie de jeux bandes dessin es cr e
20. Pour rappel le test de Levene permet de d tecter des diff rences de variances entre plusieurs groupes Ici les groupes sont d finis par les trois diff rents g notypes de chaque 3utrSNP S il y a des diff rence de variances pour les expressions des g nes associ s auquel cas la p value du test de Levene sera faible entre les g notypes cela sugg re peut tre que ce g notype fait appara tre ou inhibe l effet d une autre variable et ce 3utrSNP interagit donc avec cette variable Pond rer par la p value du test de Levene consiste ensuite donner plus de poids aux tests pour lesquels la variance des expression change en suivant le g notype Sous l hypoth se qu un r sultat significatif du test de Levene repr sente une telle interaction cette proc dure devrait permettre de d tecter plus facilement les interactions entre 3utrSNPs et utrSNPs R sultats de l analyse dans GHS Apr s avoir appliqu cette correction de Bonferroni pond r e seuil de significativit 1 02 x 1078 51 interaction miSNP 3utrSNPs se r v lent tre significatifs voir tableau 8 8 En utilisant la correction de Bonferroni standard seules 31 interactions passent ce seuil de significativit L utilisation de la pond ration par la p value du test de Levene modifie les rangs des diff rents tests et permet ici d augmenter sensiblement notre puissance de d tection de ph nom nes d interactions Parmi les 51 interactions significatives 17 i
21. est pas encore bien connue mais gr ce des algorithmes de pr dictions miRanda 56 TargetScan 70 Diana MicroT 76 PicTar 63 on pense que la plupart des microARNs pourraient cibler des centaines de g nes et qu inversement chacun de ces g nes serait susceptible d avoir des sites de fixation pour plusieurs microARNs Au final on estime que 50 de nos g nes seraient sujets une r gulation par les microARNs 8 38 64 ce qui ferait de ces derniers les l ments r gulateurs cl s de la vie de la cellule Chapitre 1 Le fonctionnement du vivant Il est courant que la s quence d ADN transcrite serve ala maturation de plusieurs microARNs La s quence du microARN est transcrite en pri miARN qui prend la forme d une t te d pingle Le pri miARN est coup par le complexe Microprocesseur contenant les prot ines Drosha et DGCR8 pour devenir un pre microARN Il est alors export a l exterieur du noyau gr ce l exportine 5 N puis le bout de sa t te d pingle est coup par EHEH Dicer et TRBP pour donner le duplexe Lorsque l hybridation est microARN microARN parfaite ou importante l ARN messager a tendance a te d grad par le complexe RISC K S S qui interagit avec un RME prot ine Argonaute 2 pour former le Le microARN oriente le complexe RISC complexe RISC vers une s quen
22. nous permet de rejeter l hypoth se HO on dit que le test est significatif Les mod les utilis s et l estimation de leurs param tres Apr s cet aper u des diff rentes fa ons de tester une hypoth se je vais maintenant pr senter les mod les et les tests utilis s dans mes travaux de recherches Mod le lin aire Le mod le lin aire est un mod le liant lin airement un caract re quantitatif tel que le niveau d expression d un g ne des variables explicatives telles que le nombre de copies d un all le d un SNP cf figure 4 3 On l explicite par une quation math matique du type y do 4X1 aX2 ApXp E o y est la variable expliquer x1 X2 x sont les variables dites explicatives P qui influencent de mani re lin aire y repr sente une variable al atoire que l on suppose normale et de moyenne nulle Elle englobe le caract re al atoire de toute mesure qui n est pas due aux autres variables Enfin do a A2 a sont les param tres du mod le repr sentant la magnitude moyenne globale de y et les magnitudes des liens entre y et x1 X2 Xp respectivement Le mod le lin aire est le mod le le plus utilis lorsque l on souhaite mod liser un ph notype quantitatif C est aussi celui utilis dans ce document pour tenter d expliquer les niveaux d expression des g nes et quelques autres caract ristiques biologiques 47 Chapitre 4 Les tests statisti
23. on est sous l hypoth se de la non tricherie et est diff rent de z ro sinon P pile 0 5 a tablir un mod le n cessite d tre plus explicite sur nos hypoth ses mais permet plus de transparence et en passant par des mod les complexes de r pondre des questions qui le sont tout autant L autre avantage est qu en passant par un mod le on a des statistiques videntes que sont les estimations des param tres du mod le a pour exemple ici Il y a plusieurs m thodes pour les calculer La plus courante est le maximum de vraisemblance visant trouver les valeurs des param tres qui permettent aux observations d tre les moins surprenantes possibles C est surtout cette deuxi me m thode que j ai utilis e pour combiner les observations dans cette 45 4 2 2 Chapitre 4 Les tests statistiques th se Les mod les utilis s ainsi que les estimations des param tres sont d crits en section 4 3 Evaluer si la combinaison obtenue est possible distribution exacte Si l on conna t la distribution des observations sous HO alors il est possible dans certains cas d en d duire la distribution de la combinaison effectu e C est la m thode sur laquelle se base le test de Levene voir section 4 5 et que je d cris un peu plus dans le prochain chapitre distribution asymptotique Si l on ne conna t pas la distribution des observations il n est alors pas possible de conna tre la distribution exac
24. personnages auraient parfois des habits qui pourraient laisser croire qu ils sont des Charlies Probl me des tests multiples en statistique qui seront abord s dans le chapitre 5 sur un million de SNPs il y a forc ment des SNPs qui sembleraient pris s par ment tre associ s la maladie enfin pour que cette analogie soit complete il faudrait rajouter une derni re r gle non des moindres 37 Chapitre 3 L pid miologie g n tique FIGURE 3 9 Charlie Afin de le distinguer du Charlie du jeu traditionnel il a quitt ses rayures rouges et blanches pour enfiler des rayures vertes et blanches et il tient dans ses mains une cellule remplie de chromosomes e Chaque personnage ne serait en fait pas visible sur une seule page mais ses habits et objets seraient r partis sur plusieurs centaines milliers voire centaines de milliers de pages l ensemble des g notypes d un individu d une GWAS n est qu une petite part de information n cessaire a la d couverte de variants C est la combinaison astucieuse des g notypes de tous les individus plusieurs milliers voire centaines de milliers 34 65 111 qui permet d y arriver Pour nous aider on pourrait demander des pages suppl mentaires mais il faudrait les payer Avoir plus d individus dans une GWAS permet d avoir plus de chances de d tecter certaines variations mais il en r sulte un co t galement sup rieur En dehors des
25. pour les justifier autre que pour avoir plus de donn es Finalement l avancement de ma th se et mon taux d heureusit ont t mesur s chaque jour l aide de la puce Illuminetoi humanSun11 beadchip La normalisation dnPic fut utilis e pour corriger les bruits de fond de Hey Soul Sister ou Gaetan Roussel Ils furent remplac s par la reprise de Sous le sunlight des tropiques par Joyce Jonathan amp Tony Les mod les r duit et mixtes ajust s pour la temp rature et le nombre de centi mes de secondes d ensoleillement sur Paris furent utilis s pour expliquer les deux ph notypes tudi s et j ai fait le 23 devant Top Gun Le Karat Kid Rasta Rocket et Shining lorsque le cluster tait en panne Toutes ces analyses ont t effectu es avec les logiciels Notepad Inkscape Sozi Scribus MobaXterm R OpenShot Everything AllMynotes pdfXchangeViewer pdfsam ainsi que les conseils du site du z ro et de Aaron Koblin Tous les d tails sont disponibles dans la m thode suppl mentaire S1 que vous ne trouverez nulle part Les r sultats montrent qu une grande partie des personnes de l tude ont eu un impact soit sur l avancement de ma th se soit sur mon bien tre et parfois sur les deux et ce m me apr s correction pour tests multiple BH cf tableau 1 En particulier l analyse par mod le structural montre que David Tr gou t a t un l ment d terminant dans l avancement de ma th se Curieusement il s av re
26. qui est nulle entre 1 et 2 5 puis qui augmente pour atteindre son maximum en 3 et diminuer ensuite Cela signifie qu aucune interaction entre les SNPs de l tude EOVT ne pouvait tre d tect e avec plus de 80 de probabilit si leur effet sur la maladie n tait pas sup rieur 2 5 en terme d odds ratio et m me 3 pour la plupart des couples de SNPs On y voit aussi qu un certain nombre de d interactions SNP SNP n cessite des odds ratios bien plus lev s du type de ceux observ s dans les maladies mend liennes mais qu on ne s attendrait sans doute pas trouver dans les maladies complexes D tection plus facile pour les all les fr quents Les autres courbes de la figure sont trac es apr s un filtrage des SNPs selon plusieurs crit res Ils permettent de rep rer les crit res influant le plus sur la probabilit de d tection d une interaction SNP SNP On y voit sur la courbe beige que les interactions impliquant les 5 de SNPs aux plus petites p values marginales p value associ e au test des effets de chaque SNP seul dans un mod le sans autre SNP 1 Nous ne consid rons ici que les odds ratios marginaux sup rieurs 1 car ceux tant inf rieurs 1 leur sont identiques en terme d effet par sym trie 90 7 3 7 3 Associations dans l tude MARTHA m ta analyse All SNPs SNPs with pvalues lt 5 SNPs with Odds Ratios gt 1 5 SNPs with freqencies gt 20 TITT T T OT AT aa 1
27. rieur du noyau dans le cytoplasme par les prot ines Exportin 5 et RAN puis coup de nouveau par l enzyme Dicer et la prot ine TRBP en le duplexe microARN microARN compos de deux s quences de nucl otides compl mentaires d environ 20 bases chacune Un des deux brins du duplex interagit ensuite avec une prot ine de la famille Argonaute pour former le complexe RISC dans lequel le microARN d sormais mature peut orienter la fixation du complexe vers une s quence d ARN d un g ne codant qui lui est compl mentaire cf figure 1 5 Il arrive que les deux brins du duplex microARN microARN puissent cibler des s quences d ARNs aussi on les distingue g n ralement en toilant le nom de la version la moins couramment rencontr e 1 Le microARN lorsqu il est int gr dans le complexe RISC va cibler des s quences d ARN qui sont compl mentaires avec les nucl otides 2 7 de son extr mit 5 appel e r gion seed Apr s hybridation du microARN sur la s quence cible le complexe RISC va alors participer au processus de r gulation de la production de prot ines dans la cellule en d gradant la s quence d ARN messager en particulier lors d une compl mentarit parfaite ou en emp chant sa traduction en prot ine Ce que renferme notre ADN Notre g nome en chiffres Notre g nome est constitu d environ 23 000 g nes longs de quelques centaines plusieurs centaines de milliers de paires de bases 53 co
28. s n est rest significatif ce qui nous a pouss nous demander le genre de magnitude d effet qu il tait possible ou n tait pas possible de d tecter par ce type d approche sur les donn es de l tude EOVT 7 2 1 Validation du calcul de puissance Pour ce faire j ai commenc par m assurer par simulation de la validit des calculs de puissance d crits dans le chapitre 5 Jai d abord simul des individus en g n rant al atoirement des g notypes pour deux SNPs non corr l s Je leur ai ensuite attribu le statut malade ou non malade avec une probabilit calcul e partir 88 7 2 Une puissance trop faible dans EOVT des param tres des effets marginaux et d interaction dans les mod les sans et avec le terme d interaction respectivement et ce jusqu obtenir 411 cas et 1228 t moins comme dans l tude EOVT J ai effectu 10 000 simulations pour divers mod les codage additif mais aussi r cessif ou dominant et diff rentes fr quences de SNPs odds ratios marginaux effets d interaction et seuils de significativit Pour chaque mod le la proportion de simulations pour lesquelles le test de Wald d crit dans le chapitre 4 est significatif fournit une estimation de la puissance qui est ensuite compar e mon calcul th orique Quelques r sultats de ces simulations sont donn s dans la figure 7 3 0 4 0 4 0 2 0 4 0 4 0 2 0 4 0 4 0 2 0 4 0 4 0 2 0 4 0 4
29. tique n est pas la seule responsable de nos diff rences Elle agit de concert avec l environnement ext rieur dont l influence lui est parfois bien sup rieure 15 2 2 2 2 2 3 Chapitre 2 La variabilit g n tique Le m canisme de l volution Lorsque plusieurs populations loign es sont soumises des environnements diff rents les mutations et recombinaisons qui donnent certaines populations un avantage en termes de survie ont tendance se conserver plus que dans une autre population ot elles peuvent s av rer n fastes Laccumulation au cours de milliers d ann es de ces modifications aboutit a une diff rentiation importante du g nome entre les populations allant jusqu l incompatibilit sexuelle et la cr ation de nouvelles esp ces C est le principe de l volution introduit par Charles Darwin dans On the Origin of Species 27 Notre classification des esp ces vivantes passe d ailleurs depuis la seconde moiti du XXeme si cle par une analyse dite phylog n tique de reconstruction de la diff renciation des g nes ou des expressions des g nes 68 au cours du temps Les maladies g n tiques L h ritabilit Gr ce des tudes sur des familles ou des jumeaux en observant des ph notypes plus semblables pour les individus g n tiquement plus proches on a pu d couvrir qu un certain nombre de maladies avaient une part d origine g n tique provenant de certa
30. trouver les valeurs seuil au dela desquelles on d clarera le test significatif Si en plus on connait la distribution sous H1 on peut alors calculer la probabilit que cette statistique soit significative lorsque l on est sous H1 c est dire la puissance du test Abraham Wald montra qu ind pendamment des hypoth ses la statistique de Wald suit asymptotiquement une distribution normale On peut donc calculer la puissance que l on a de d tecter une interaction dans nos mod les lin aires et logistiques Cela m a servi a d terminer notre puissance de d tection de certains ph nom nes d interaction voir chapitre 7 La statistique de Wald W est significative lorsque sa valeur se trouve tre plus extr me que ce que l on attendrait et ainsi la p value plus faible que le risque a que l on s est fix Comme la statistique de Wald est distribu e normalement on s attendrait ce que la valeur observ e w se situe vers le centre de la distribution et lon d clarera le test significatif si elle se trouve dans les queues de la distribution plus pr cis ment si Iwl gt 711 a 2 ou est le fonction de r partition de la loi normale de moyenne 0 et de variance 1 Ainsi si l on appelle 7 estimation d un param tre y non nul sous H1 la puissance du test de Wald pour d tecter la non nullit de ce param tre y est Puissance P statistique de Wald significative H 1 P lw gt 7 1 2 H1
31. 0410 3 22 10 ono RFPL1 22 ILMN_ 1797383 rs 13053624 hs a mir 3920 11 1512275715 1512283329 1513053817 1 21 10 3 22 10 1 74 10 TXNDC5 6 ILMN_ 1769082 158643 hsa mir 125b 2 21 182823897 1s2211981 ts 8643 8 951078 3 39107 23 1077 TXNDCS 6 ILMN_ 1769082 181043784 hsa mir 125b 2 21 15 2823897 182211981 183734589 1 261017 3 18107 1 64 1017 LYZ 12 ILMN_1815205 15710794 hsa mir 1279 12 151463335 15317657 15710794 41310 4 51 1073 20 10 16 ASB1 2 ILMN_1683096 rs 1044561 hsa mir 125b 2 21 rs 2823897 1s2211981 1s 2334004 1 45 107 8 91107 1 87 1075 RFPL1 22 ILMN_1797383 rs 13053624 hs a mir 4656 i 183750013 1517135110 1513053817 2 281014 3 22105 3 29 10 ASB1 2 ILMN_1683096 152278768 hsa mir 3119 1 1 1517349873 rs 1330387 182278768 3 71 104 1 34 10 4 10 10 RFPLI 22 ILMN_1797383 1513053624 hsa mir 30c 1 1 1516827546 1316827546 rs13053817 2 891074 3 22 10 4 16 1075 ECE1 1 ILMN_1672174 r53026907 hsa mir 1307 10 187911488 182271751 189287035 2 9810 9 0710 4 291075 RFPL1 22 ILMN_1797383 1513053624 hsa mir 125b 1 11 ts 2081443 1s 2081443 1513053817 2 4010 3 22 105 3 47 10 PKDIL2 16 ILMN_1742788 1s 1901818 hs a mir 4272 3 1s 9868022 1s 9868022 187198127 8 92 1074 8 80 10 5 47 10 14 EGEL il ILMN_1672174 15 3026907 hsa mir 4670 9 152104533 182296666 189287035 5 16107 9 07 10 7 42 1014 ASB1 2 ILMN_1683096 152278768 hsa mir 125b 2 21 rs 2823897 182211981 182278768 5 3010 1 34106 5 85 10 RFPL1 22 ILMN_1797383 rs 13053624 hs a mir 4300 11 1511603185
32. 15x10 p 2 52x10 p 1 65x10 p 7 16x10 79 p 244x10 5 p 8 23x10 78 p 1 81x10 p 5 66x10 for CNTN6 CTRC COPZ2 KRT9 LRRFIPI NOD1 PCDHA6 ST5 and TRAF31P2 respectively Corresponding p values for the trans associations adjusted for YEATS4 expression were p 1 86x1l0 p 1 72x1071 p 6 45x10 p 9 48x10 12 p 6 10x10 73 p 3 76x10 13 p 1 59x10 78 p 2 33x10 p 5 10x10 respectively When the rans associations were adjusted for both LYZ and YEATS4 expressions they were hardly modified with p values ranging between p 2 98x10 COPZ2 to p 6 55x10 7 PCDHA6 As indicated in Table 3 these nine genes were not strongly correlated with each other nor with expression of LYZ the gene in which the rs31757 SNP was located Replication in CTS We focused on the genome wide significant tans associations observed with the hsa mir 1279 miSNP proxy These associations were tested for replication in CTS where monocyte expression was measured in a sample of 395 healthy individuals and 363 patients with coronary artery disease 26 In CTS the hsa mir 1279 rs1463335 proxy was the 18998022 r 0 90 Its pairwise r with the GHS rs317657 proxy was 0 84 The probe tagging the LYX gene expression was not available in CTS but all other associations were replicable As indicated in Table 2 they all replicated with consistent pattern of association as in GHS The rs998022 G allele tagging the rs317657 C allele was associated wit
33. 3 D finitions et caract ristiques li es a la variabilit g n tique ce qui aura pour cons quence sur la population g n rale de r duire fortement le d s quilibre de liaison entre ces deux polymorphismes A l inverse si deux polymorphismes sont tr s proches l un de l autre sur un chromosome alors il n y a que peu de recombinaisons possibles qui permettent le r arrangement de leurs all les entre les deux chromosomes de la paire consid r e et le d s quilibre de liaison entre ces deux polymorphismes restera tr s fort pendant longtemps dans la population Ce ph nom ne est r sum sur la figure 2 5 G nome mitochondrial Le g nome mitochondrial humain est un petit g nome transmis uniquement par la m re et constitu de 16 569 paires de bases Il ne contient que quelques dizaines de g nes mais est tr s utilis pour son caract re peu variable du fait de l absence de m canisme de recombinaison g n tique Il est par exemple tr s utilis dans les recherches des anc tres communs entre les esp ces ou au sein de l esp ce humaine ainsi que dans l identification de suspects dans les enqu tes polici res Mesure du d s quilibre de liaison Il y a plusieurs fa ons de mesurer le d s quilibre de liaison entre deux polymorphismes 29 Afin de les introduire commen ons par noter f x la fr quence de x dans la population o x est un all le ou un haplotype Consid rons ensuite deux locus bi all liques
34. 42E 07 5 12E 07 4 35E 07 7 85E 07 6 40E 07 5 49E 07 7 36E 07 1 06E 06 8 17E 07 3 93E 06 8 20E 07 9 52E 07 8 32E 07 9 17E 08 9 49E 07 1 81E 06 1 05E 06 3 41E 06 1 06E 06 6 40E 07 1 10E 06 1 84E 06 1 11E 06 145E 07 1 12E 06 FIGURE 7 10 Les 15 interactions entre les SNPs du chromosome 20 qui ressortent les plus associ es a la thrombose veineuse dans EOVT a gauche et dans MARTHA a droite apr s pond ration par les fr quences all liques p value marginale associ e chaque SNP 2 p value li e au terme d interaction p value du terme d interaction pond r e par les fr quences all liques des SNPs qui semblent d j associ s la maladie d un point de vue biologique il paraitrait assez logique que les SNPs impliqu s en interaction dans un ph notype le soit galement s par ment Comme ce sont les p values faibles que nous souhaitons privil gier nous avons opt pour une pond ration par loppos du logarithme du produit des p values marginales w log p value x p value o p value et p value sont les p values marginales associ es aux mod les marginaux incluant uniquement les SNPs 1 et 2 respectivement 181293144 0 46 0 959 9 17E 08 2 85E 08 1851293143 0 42 0 876 1 45E 07 4 89E 08 183092379 0 42 0 035 3 78E 07 2 09E 07 152567608 0 48 0 276 1 6 40E 07 2 41E 07 156128273 0 09 0 454 6 06E 08 2 84E 07 151293144 0 46 0 959 8 79E 07 3 03E 07 152766641 0 46 0 598 9 52E 07 3 54E 07 15
35. A et B e le locus A peut avoir l all le A avec une fr quence f A ou l all le A avec une fr quence f Ay 1 f Aj e le locus B peut avoir l all le B avec une fr quence f B ou l all le B avec une fr quence f B3 1 f B1 Lorsque les deux locus sont ind pendants les fr quences de chaque haplotype sont simplement les produits des fr quences de chaque all le f A By f A1 f B1 f A Ba f Ar f B2 f ADG f B1 Ff A2Bi f Aa f B1 1 fA f y f A2B2 f A2 f B2 1 f A f B 21 Chapitre 2 La variabilit g n tique Alors il est directement visible d apr s le tableau 2 6 qu une d viation D de la fr quence d un de ces haplotypes d termine compl tement les d viations des fr quences des autres haplotypes D f A B f Ay f By f A B f A1 f B2 f A2B1 f A2 f B1 f A2B2 f A2 f B2 B1 f A1 f B1 D f A2 f B1 D f B1 B2 f A1 f B2 D f A2 f B2 D f B2 Total f A1 f A2 1 FIGURE 2 6 Fr quences all liques et haplotypiques Pour visualiser le lien entre cette mesure D et la recombinaison chromosomique consid rons que le polymorphisme au locus B est plus r cent qu au locus A Au moment de sa naissance il existe deux all les A4 et A au locus A mais au locus B il n y a que l all le B qui est pr sent dans la population avant que l all le B soit cr e par
36. Chapitre 3 L pid miologie g n tique ti ti M MU AU NE AU mt CAGCAGCAGCAGCAGCAGCACEAG AN OAR ORR RKO a u 12 B 14 15 16 17 uaa K a rt La maladie de Huntington est caus e par moo un CNV dans le g ne HTT situ sur le bras court du chromosome quatre Les personnes ayant plus de 41 r p titions du triplet de nucl otide CAG sur un de leurs chromosomes sont affect es Chromosome 4 FIGURE 3 2 Locus de pr disposition la maladie de Huntington Huntington put tre localis sur le g nome approximativement d abord en 1983 puis pr cis ment dix ans plus tard en 1993 cf figure 3 2 127 Puces ADN ARN La densification du nombre de marqueurs sur le g nome facilita donc la localisation des variations responsables de certains caract res mais elle impliqua galement le besoin de g notyper identification des all les les individus pour tous ces marqueurs ce qui tait tr s fastidieux Ce sont les technologies des puces miniatures ADN et ARN aussi appel es biopuces apparues au milieu des ann es 1990 102 qui apport rent la solution Le principe des puces ADN est relativement simple On commence par produire un grand nombre de fragments d ADN simples brins partir d une ou plusieurs s quences d ADN de r f rence par amplification Ensuite on attache ces fragments sur des puces rigides On les appelle alors des sondes Comme les fragments sont simples brins ils peuvent s hybr
37. DBPI expression 183128963 p 2 30x10 1 see GHS_Express database 23 The same pattern of associations was observed in CTS Figure 1 The HLA DPBI rs1042448 A proxy allele was associated with a strong significant increase in HLA DPBI expression B 0 63 p 5 24x10 when carried on the same haplotype as the hsa mir 219 1 rs107822 C proxy allele The corresponding increase when the rs1042248 A proxy allele was associated with the hsa mir 219 1 rs107822 A proxy allele was significantly reduced sion p 2 68x10 7 and did no longer reach significance B 0 05 p 0 23 Figure 1 The second replicated interaction involved the A FO rs1894644 and hsa mir 659 rs5750504 tagged by the rs763137 rs2899293 and rs1894644 rs6000905 pairs in GHS and CTS respectively Figure 2 These two loci are distant from about 40 kb and the corresponding tag SNPs were in low LD r 0 15 and r 0 14 in GHS and CTS respectively In GHS and in CTS the 71F0 rs1894644 T proxy allele was associated with a strong increase in HIFO expression B 0 65 p 1 71x10 and B 0 79 p 1 36x10 respectively when it was on the same haplotype as the rs5750504 T proxy allele Conversely when the rs1894644 T proxy allele was on the same haplotype as the rs5750504 A proxy allele the corresponding increase in H1FO expression was lower B 0 23 p 9 74x10 and B 0 26 p 7 25x10 respectively The test for homogeneity of the HIFO rs1894644 effect acc
38. DIANA microT web server elucidating microRNA functions through target prediction Nucleic acids research 37 W273 6 2009 cf p 7 Martinelli I Taioli E Bucciarelli P et al Interaction between the G20210A mutation of the prothrombin gene and oral contraceptive use in deep vein thrombosis Arteriosclerosis thrombosis and vascular biology 19 700 3 1999 cf p 87 Maxam A M amp Gilbert W A new method for sequencing DNA Proceedings of the National Academy of Sciences of the United States of America 74 560 4 1977 cf p 30 McVean G Evolutionary genetics what is driving male mutation Current biology CB 10 R834 5 2000 cf p 14 Mendel G Experiments in Plant Hybridization 1865 cf p 26 49 Morange P E amp Tregouet D A Lessons from genome wide association studies in venous thrombosis Journal of thrombosis and haemostasis JTH 9 Suppl 1 258 64 2011 cf p 86 Morgan T The theory of the gene American Naturalist 1917 cf p 26 Moskvina V amp Schmidt K M On multiple testing correction in genome wide association studies Genetic epidemiology 32 567 73 2008 cf p 76 Mullis K Faloona F Scharf S et al Specific enzymatic amplification of DNA in vitro the polymerase chain reaction Cold Spring Harbor symposia on quantitative biology 51 Pt 1 263 73 1986 cf p 27 Nachman M W amp Crowell S L Estimate of the Mutation Rate per Nucleotide in Human
39. HO FIGURE 5 2 Distribution de la p value sous HO Transformation de la p value Plus g n ralement ce raisonnement s applique a n importe quelle variable apr s transformation par sa fonction de r partition Si une variable X suit une distribution D et que sa fonction de r partition est E alors F X aura une distribution uniforme sur 0 1 x Ainsi on peut obtenir n importe quel type de distribution partir d une distribution uniforme sur 0 1 simplement en lui appliquant la fonction de r partition inverse de la distribution souhait e En particulier comme sous HO la p value suit une loi uniforme sur 0 1 si on la transforme par une fonction de r partition inverse on obtient une variable qui suit la distribution correspondante a cette fonction 72 5 2 Comment augmenter la puissance de d tection d un test Par exemple la fonction F d finie par F x 2In x est la fonction inverse de r partition de la distribution du y 2 degr s de libert Du coup sous HO 21n p value suit une loi du y 2 degr de libert Combinaisons possibles Comme on est capable de transformer une p value en une variable suivant n importe quelle distribution il suffit d sormais de conna tre la distribution de certaines combinaisons de variables pour pouvoir appliquer cette combinaison a nos tests Comme cela a pu tre dit pr c demment les combinaisons les plus intuitives sont les sommes de var
40. S Saini H K van Dongen S et al miRBase tools for microRNA genomics Nucleic acids research 36 D154 8 2008 cf p 7 32 101 Guo J U Ma D K Mo H et al Neuronal activity modifies the DNA methylation landscape in the adult brain Nature neuroscience 14 1345 51 2011 cf p 14 Handford M O est Charlie le voyage fantastique 1989 cf p 36 Hardy G H Mendelian proportions in a mixed population Science 28 49 50 1908 cf p 45 61 Heinig M Petretto E Wallace C et al A trans acting locus regulates an anti viral expression network and type 1 diabetes risk Nature 467 460 4 2010 cf p 82 Hercberg S Galan P Preziosi P et al The SU VI MAX Study a randomized placebo controlled trial of the health effects of antioxidant vitamins and minerals Archives of internal medicine 164 2335 42 2004 cf p 78 Holm S A simple sequentially rejective multiple test procedure Scandinavian journal of statistics 1979 cf p 67 Articles livres th ses 50 51 52 53 54 55 56 57 58 59 60 61 62 63 Hua Y Zhang Y amp Ren J IGF 1 Deficiency Resists Cardiac Hypertrophy and Myocardial Contractile Dysfunction Role of microRNA 1 and microRNA 133a Journal of cellular and molecular medicine 2011 cf p 100 Huntzinger E amp Izaurralde E Gene silencing by microRNAs contributions of translational repression a
41. Thrombosis EOVT L tude EOVT est une tude d association g nome entier compos e de deux chantillons de cas et de t moins d origine europ enne et r sidant en France L chantillon de cas contient 453 patients recrut s dans quatre centres m dicaux a Grenoble Marseille Montpellier et Paris entre 1999 et 2006 avec pour crit res d inclusion une apparition de la maladie avant 50 ans et une absence de facteurs de risque majeur de la thrombose veineuse pas de d ficit en AntiThrombine AT Prot ine C PC ou Prot ine S PS et non homozygosit pour les mutations du facteur V Leiden ou du facteur II 39 120 L chantillon de t moins consiste pour sa part en 1 327 sujets sains choisis al atoirement parmi les 13 017 sujets volontaires qui particip rent l tude Suvimax une tude qui consistait tester si la prise de vitamines et min raux antioxydants avait un effet sur l incidence des maladies cardiovasculaires et des cancers dans la population g n rale 48 Les deux chantillons furent g notyp s pour plus de 300 000 SNPs avec la puce ADN Illumina Sentrix HumanHap300 Les donn es utilis es dans ce travail de th se ont par ailleurs t filtr es pour exclure les individus qui semblaient apparent s ou dont l origine europ enne nous paraissait discutable Au final en s assurant d un taux de g notypage r ussi par individu de plus de 95 les analyses que j ai effectu es sur cette tude reposent
42. a key cell type participating in several disease processes including inflammation atherosclerosis and immunity 25 miSNPs effects identified were further validated for replication in a second large monocyte expression dataset the Cardiogenics Transcriptomic Study CTS 26 Results The Gutenberg Health Study GHS comprised 1 467 individ uals 750 men and 717 women 23 All these individuals were typed for common SNPs using the Affymetrix Genome Wide Human SNP Array 6 0 and their monocyte expression profiles were obtained from the Illumina HT 12 v3 Beadchip Detailed description of these genome wide expression and genotype data has already been provided elsewhere 21 24 PLOS ONE www plosone org miRNA SNPs and Monocyte Gene Expression Probes and SNPs selection The GRCH37 release of the Human reference genome and the 17 release of the miRNA database 4 were used to identify SNPs located within pri miRNA sequences and PUTR regions The number of miSNPs genotyped in GHS or that could be substituted according to the SNAP software 27 by a proxy genotyped SNP in strong correlation when expressed in terms of a pairwise linkage disequilibrium LD r greater than 0 90 was 294 representing 258 distinct miRNAs The pre processing of the expression data see Methods identified 22 004 probes covering 15 786 genes of perfect quality score according to ReMOAT 28 and not harboring a SNP in their genomic sequence
43. capture de la majeure partie des pri microARNs tout en vitant d ajouter dans l analyse un trop grand nombre de SNPs n y tant pas r ellement Enfin j ai utilis la version 131 de la base de donn es dbSNP 105 pour identifier l ensemble des SNPs localis s dans les diff rentes r gions concern es Le g nome de r f rence GRCH37 Un g nome de r f rence consiste en la s quence complete d acides nucl iques d un g nome C est sur cette s quence compl te que les scientifiques se basent ensuite pour d terminer les positions d autres s quences particuli res comme les g nes GRCH37 pour Genome Reference Consortium Human Genome build 37 est le g nome humain de r f rence produit par le GRC Genome Reference Consortium en Mai 2010 partir du s quencage de 13 individus anonymes C est actuellement probablement le g nome de r f rence humain le plus couramment utilis Les nombres totaux de SNPs identifi s sont renseign s dans la figure 8 1 b Les SNPs situ s dans ou autour des microARNs sont par la suite appel s miSNPs ceux situ s dans les r gions 3 UTR sont appel s 3utrSNPs pri miARN gt 100 paires de bases mal miARN mature 20 bp Nombre de 5 858 294 miSNPs Nombre de 3utrSNPs 224 726 11 893 Hybridation au niveau de la r gion seed gt 7 bp r gion 3 FIGURE 8 1 a R capitulatif visuel des diff rents acteurs du processus de maturation et d act
44. ce produit le dosage du facteur VIII VIID Le facteur VIII est une prot ine participant a la formation du caillot sanguin lorsque le processus en cascade de coagulation du sang est entam le dosage du facteur de von Willebrand par antig ne VWF le facteur de von Willebrand est une prot ine essentielle l h mostase primaire le m canisme permettant l adh sion des plaquettes a la veine l s e avant la coagulation proprement dite Il permet entre autres le transport du facteur VIII le dosage de l antithrombine AT l antithrombine est la principale prot ine inhibitrice de la thrombine d clencheur de la premi re phase de la cascade de coagulation afin d viter apparition de thromboses veineuses ou art rielles Elle inhibe galement les facteurs Xa IX et XIa galement pr sents dans la cascade de coagulation le dosage du fibrinog ne FIB La prot ine fibrinog ne aussi appel e facteur I est une prot ine impliqu e dans le processus en cascade de coagulation du sang Elle se transforme en fibrine principal constituant du caillot sanguin sous l action de la thrombine le temps de thrombine PT C est une mesure du temps d apparition du caillot de fibrine apr s ajout d une faible quantit de thrombine le temps de c phaline activ e TCA C est une mesure du temps de coagulation d un plasma en pr sence notamment de c phaline L tude MARTHA a t utilis e en combi
45. chi au monde a la science a la statistique l enseignement aux gens un peu tout en y r fl chissant bien et ces r flexions wont emmen consid rer l enseignement et la p dagogie bien haut dans la hi rarchie de mes priorit s une poque o l on parle beaucoup d efficacit en recherche je suis convaincu que pour faire avancer la science mais aussi pour le simple bien de notre soci t les chercheurs ont tout int r t perdre un peu de temps effectuer de gros efforts de p dagogie envers leurs tudiants la soci t ou m me les autres chercheurs lors de la pr sentation de leurs r sultats mais je m gare Cette mission d enseignement et ces diff rentes r flexions ont t d terminantes dans l orientation que j ai pu donner a mon travail de recherche Elles Pont impact par moment positivement mais aussi parfois n gativement en ce sens qu elles ont us de mon temps et de ma motivation au grand dam de mon directeur de th se Je pense en fait avec un peu de recul qu elles font partie int grante de mon travail de th se et c est la raison pour laquelle j ai souhait essayer de les int grer dans ce document Ainsi c est d lib r ment que ce manuscrit de th se tout en essayant de ne pas d vier de son objectif principal savoir exposer le travail de trois ann es de recherches est emprunt d une tentative d tre abordable au novice voire parfois ludique xiii
46. d un microARN pour les 7 autres associations en gras dans la tableau 8 2 doit cependant tre consid r e avec prudence car l analyse effectu e ne nous permet pas d exclure la possibilit d associations dues un d s quilibre de liaison entre le proxy miSNP et le vrai cis SNP Une implication du microARN reste n anmoins plausible pour celles dont le microARN concern se situe dans l intron du g ne avec lequel le miSNP semble associ Association en cis en trans On dit qu une association est en cis signifiant du m me c t en latin lorsque l association se fait entre un g ne et un l ment variable ici un SNP qui lui est proche Ce type d association est opposer l association en trans de l autre c t en latin o l association implique deux l ments loign s sur le g nome En g n ral on consid re que les associations entre les miSNPs et les expressions des g nes sont en trans car leurs s quences respectivess ne sont a priori pas adjacentes 8 3 2 Un cluster d associations intriguant En ce qui concerne les neuf associations en trans significatives apr s correction de Bonferroni encadr s dans la figure 8 2 il est int ressant de remarquer que toutes impliquent le miSNP rs1463335 situ dans le pri microARN hsa mir 1279 et marqu par le proxy miSNP rs317657 pr sent sur la puce de GHS avec une corr lation parfaite entre le miSNP e
47. diff rences de r gle du jeu on observerait galement des diff rence d tat de la bande dessin e 38 e La BD pav ne serait pas forc ment livr e en excellent tat donn es manquantes erreurs de g notypage et il faudrait enlever certaines pages ab m es filtrage sur les individus ou m me reboucher certains trous traversant le livre filtrage sur les variants avant de pouvoir le feuilleter correctement Parfois l diteur pourra avoir malencontreusement associ les pages du livre avec celles d un autre livre probl me de population non homog ne Comme 3 2 3 3 2 La recherche d interactions pour tenter d expliquer l h ritabilit manquante le dessinateur ne s emb te pas trop et remet toujours les m mes personnages dans ses livres on a souvent les m mes polymorphismes sur la plupart des puces a ADN en ne changeant que les v tements et encore parfois tr s peu les fr quences des polymorphismes ne sont pas toujours diff rentes entre les populations il serait cependant envisageable d utiliser le livre entier en pla ant des calques diff rents sur les pages provenant de livres diff rents m thodes d ajustement pour corriger ce probl me de stratification Les hypoth ses biologiques avanc es pour expliquer cette h ritabilit manquante A cette complexit statistique s ajoute le fait que l on n a probablement pas cherch l h ritabilit de certains traits c
48. est coh rente avec l hypoth se HO Pour y arriver on a besoin de conna tre le genre de valeurs que peut prendre la statistique sous HO c est dire qu il faut conna tre sa distribution Si la valeur observ e se trouve dans les disons 5 de valeurs les plus extr mes de la distribution de la statistique sous HO alors cela nous poussera plut t rejeter cette hypoth se HO Test de Wald On a vu que l estimation par maximum de vraisemblance consistait en la r solution d un syst me d quations impliquant les sommes des variables du mod le Comme en g n ral on ne conna t pas la distribution exacte de ces variables il n est pas possible d en d duire la distribution exacte des estimations En revanche si le nombre d observations est suffisamment important on peut se servir du fait que les estimations sont calcul es partir d une somme de variables Par le th or me central limite on peut les approcher par une distribution normale Il y a trois tests g n raux principaux qui sont couramment utilis s et qui utilisent ces estimations des param tres comme statistiques le test de Wald le test du rapport de vraisemblance 131 et le test du score Ces trois tests utilisent ce type d approximation Le test classique effectu dans la majorit des logiciels statistiques lorsque l on effectue une r gression lin aire ou logistique c est dire lorsque l on estime les param tres d un mod le lin aire ou l
49. expression of the associated genes but these over expressions were highly reduced in carriers of miSNPs rare alleles The identified miSNPs are not located within the mature sequence of the associated miRNAs but in their pri miRNA sequences These rare alleles could either be associated with increased miRNA expression or could tag for yet unknown miSNPs within mature sequences leading to the production of isomiRs It could be speculated that the associated miRNAs or isomiRs would then target the identified 3 UTR regions made sensitive to miRNAs regulation by the identified 3 UTR variants variants that could create novel motifs for miRNAs binding and would lead to reduction of the per se effect of the UTR variant Molecular constructs are required to assess such hypothesis We further checked whether the identified miSNPs could interact with other UTR SNPs located in genes in the vicinity of the HLA DBP and H1F0 loci We did not observe any suggestive evidence P lt 0 05 for such interaction suggesting that the identified miRNA regulation would be specific to HLA DBPI and H1F0 The identified interactions involved SNPs in modest LD but located within a genomic distance of less than 100 kb Several miRNA SNPs and Monocyte Gene Expression examples have already been observed where a given miRNA participates to the regulation of a gene located in its very close vicinity 2 3 44 45 Nevertheless one cannot exclude the possi bility t
50. galement tre mon directeur de th se ce qui sugg rerait un lien J invite les chercheurs se pencher sur le sujet En tout cas je remercie David de m avoir David 0 840373 4 67E 306 in 0 051740 5 17E 143 0 443134 4 43E 113 Gaelle 0 295842 2 968 218 166509 3 67E 142 0 677163 677 125 Nadine 0 064770 648 219 5 0 939088 9 39F 142 0351338 3516 125 Maxime 0 560066 5 60E 186 Philippe 0 447017 447E 142 Sany 0 815120 8155 125 Guilemette 0 856749 8 578 186 Christophe 0 079836 7 98E 143 Herv 0 110098 1108 125 Viviane 0 671502 672 186 Franck 0 941167 941E 142 Ewa 0 199207 1 99F 125 Jessica 0277466 278 186 z 8 o cee 0 841379 841 142 Nathalie 0 986703 9 878 125 Isabelle 0 582817 583 166 0 258137 2580 142 Papa 0 543215 5436 06 Antoine 0 683412 6 838 168 C cile 0 131547 1 32E 142 Marie 0 118030 118E 116 Urke 0 625354 6258 16 E 0 578419 SELS Auden 0 872869 8736 116 Viviane 0 784192 7846 153 Samuel 0 726200 7266 138 Valenin 0 544974 64SE 116 5 Vinh 0 852878 8 53E 153 Florian 0 644667 6 45E 138 Tim o 0 067874 6 79E 117 0 512839 536 153 Valentna 0 499497 4 99E 138 Annie 0868600 8 696 116 9 756330 7566 153 Paul 0 630970 6316 138 Grand P re 0431711 4326 116 0 331050 3316 153 Piere 0 817677 818 128 Amaud 0 486848 4 87E 100 0 798160 798 153 Manon 0 679842 6 80E 128 Nicolas 0 560281 5 60F 100 Tableau 1 100 premi res associations significatives pris comme doctorant Je pense que je n ai pas d tre un do
51. gul s par un microARN soit tr s r duit mais que de nombreux g nes puissent cependant accueillir la fixation du microARN sans que cette fixation n ait de cons quences particuli res Ainsi la plupart des sites de fixation aurait simplement pour r le de r guler l action du microARN en lui faisant perdre son temps ce qui att nuerait l encore les effets des microARN et ainsi des variations qu ils pourraient contenir 104 L hypoth se de l organisme statisticien Toutes ces hypoth ses ne sont pas incompatibles entre elles et il est possible que la r alit consiste en une combinaison de tous ces m canismes et probablement de bien d autres En particulier je ne peux r sister la tentation d imaginer notre organisme tre un statisticien hors pair en mati re de r gulation En multipliant les m canismes de compensation et la redondance je l imagine ne pas emp cher les dysr gulations mais au contraire les favoriser de sorte qu un m canisme de r gulation d ficient un endroit soit forc ment compens par d autres dispositifs d faillants d autres endroits pour finalement que l ensemble ne soit que peu affect 121 122 iographie Articles livres theses 3C Study Group Vascular factors and risk of dementia design of the Three City Study and baseline characteristics of the study population Neuroepidemiology 22 316 25 2003 cf p 79 Abelson J E Kwan K Y O Roak
52. interactions entre polymorphismes dans la thrombose veineuse Rappel des r sultats obtenus Ce travail est notre connaissance le premi re tentative de d tection de ph nom nes d interaction associ s la thrombose veineuse P chelle du g nome entier Notre strat gie de recherche ne nous a pas permis d identifier de nouveaux variants susceptibles de contribuer la maladie Elle nous a cependant permis de 115 9 1 2 9 1 3 Chapitre 9 Discussions et perspectives tester diff rentes approches de combinaisons de tests et de pond rations Elle nous a aussi servi de support pour tester et appliquer nos calculs de puissance qui ont par ailleurs r v l que l utilisation de polymorphismes communs tait n cessaire la d tection d interactions avec suffisamment de puissance dans des tudes du type de EOVT ou MARTHA Enfin en testant certaines des interactions les plus prometteuses sur certains biomarqueurs quantitatifs nous avons pu mettre en vidence une association significative entre interaction SNP SNP rs9804128 rs4784379 et le niveau plasmatique de facteur VIII Analyse et perspectives ouvertes par nos travaux En revanche les raisons pour lesquelles nous n avons pas pu d tecter d interaction associ e la maladie thromboembolique veineuse ne sont pas encore identifi es Il se pourrait d abord qu il n y ait pas d interaction entre polymorphismes contribuant la variabilit de la patho
53. j certains facteurs de risque d une maladie m me si ce ne sont pas ceux qui nous int ressent il est important de les inclure dans les mod les d explication de la maladie afin que les mod les et donc les hypoth ses soient les plus susceptibles d tre conformes la r alit On dira alors que l on ajuste les mod les pour ces facteurs de risque Par exemple l ge et le sexe sont souvent des facteurs de risque importants pour les maladies complexes et on les utilise ainsi souvent pour ajuster les diff rents mod les que l on teste Terme d interaction D tecter des interactions entre g nes D finition Une interaction repr sente une action r ciproque entre plusieurs l ments D un point de vue biologique d s que plusieurs mol cules entrent en contact in vitablement elles interagissent D un point de vue statistique 51 Chapitre 4 Les tests statistiques cependant pour qu il y ait interaction il faut que les effets de certaines variables sur le caract re tudi d pendent des valeurs d autres variables Par exemple pour qu il y ait interaction entre des polymorphismes g n tiques il faut que les effets de certains all les de ces polymorphismes soient modifi s selon la pr sence ou non de certains autres all les Dans cette th se c est la d finition statistique qui va nous int resser car elle d crit les interactions que nous pouvons d tecter et qui ont un r el impact sur le cara
54. le petit g nome mitochondrial voir encadr que les par la langue fran aise on peut tout fait appliquer au mot locus les r gles de cette langue d o mon emploi de locus au pluriel 19 Chapitre 2 La variabilit g n tique marqueurs 1 a 4 v 1 7 4 p m x Quelques chfomosom s possibles apr s recombinaison chromosomique 2 7 i i 4 i 1 1 y yoy Yy x x On peut remarquer que certains marqueurs sont toujours transmis ensemble alors que d autres ne sont transmis ensemble qu une fois sur deux En g n ral lorsque deux marqueurs sont tr s loign s l un de l autre il y a une chance sur deux pour que leurs all les soient s par s par les recombinaisons Il ne sont pas en d s quilibre de liaison En g n ral lorsque deux marqueurs sont tr s proches il est tr s rare qu une recombinaison s pare leurs all les Ils sont en tr s fort d s quilibre de liaison FIGURE 2 5 Le d s quilibre de liaison mutations sont l unique m canisme de variabilit Sur le g nome nucl aire celui dont on parle dans tout ce document les mutations s accompagnent de recombinaisons chromosomiques Comme les recombinaisons s effectuent al atoirement certains endroit des chromosomes si deux polymorphismes sont loign s l un de l autre il y a plus de chances qu une ou plusieurs recombinaisons surviennent entre eux 20 2
55. marqueurs g n tique ce qui s av ra difficile jusqu la d couverte de la structure en double h lice de l ADN par James Watson et Francis Crick en 1953 26 Cette d couverte permit lessor de l ing nierie g n tique 26 3 1 Rappel historique Lhybridation Watson et Crick ont d couvert que l ADN est compos de deux brins antiparall les associ s par compl mentarit de leurs bases azot es A avec T C avec G par des liaisons hydrog nes De par cette structure deux fragments de brins d ADN libres et compl mentaires auront tendance s associer pour former un fragment double brins C est ce que l on appelle hybridation et c est le m canisme qui est la base des techniques d identification de polymorphismes que sont le southern blot et la puce ADN ou ARN En effet un polymorphisme g n tique pr sent au sein d une population engendre des diff rences de s quences qui peuvent tre test es par hybridation Si deux individus n ont pas les m mes all les leurs s quences ne s hybrideront pas ou en tout cas moins bien que si les s quences taient identiques La fragmentation de l ADN Une d couverte importante fut celle de Hamilton O Smith lorsqu il isola en 1970 la premi re enzyme de restriction 110 une prot ine capable de couper une petite s quence d ADN bien d termin e Smith ainsi que Daniel Nathans et Werner Arber en d couvriront de nombreuses autres et fournirent ain
56. max o Dmax est la valeur que prendrait D si le d s quilibre de liaison tait complet max f A f B1 f A2 f B2 si D lt 0 min f A f B2 f A2 f B1 si D gt 0 max Une autre mesure normalis e est le coefficient de corr lation au carr dont le lien avec D est donn par D2 rhen SA Af B1 f B2 Dans ce manuscrit Cest cette derni re mesure que j utiliserai pour d crire le d s quilibre de liaisons entre deux SNPs 23 24 3 1 3 1 1 Chapitre 3 logie g n tique Mais o est donc pass Snippy Dans le chapitre pr c dent nous avons vu que les mutations et recombinaisons chromosomiques permettent l volution et la diversit du vivant mais qu ils peuvent aussi tre en partie responsables de certaines maladies Dans ce chapitre nous allons voir comment les volutions scientifiques technologiques ou informatiques permirent de d couvrir certains des polymorphismes impliqu s dans ces maladies J y pr senterai galement la strat gie adopt e durant ma th se pour essayer de d tecter une partie des nombreux variants qui restent identifier Rappel historique Principe g n ral Le but de l pid miologie g n tique est d identifier les d terminants g n tiques des caract res h r ditaires observables des individus Pour ce faire les pid miologistes commencent par identifier certains caract res que l on sait d termin s au moins en partie par la g n tique
57. maximisant en galant la d riv e de cette vraisemblance ou plus souvent son logarithme z ro Estimation des param tres d un mod le lin aire Supposons un mod le de r gression lin aire tel que d fini auparavant voir section 4 3 entre une variable Y qui sera classiquement l expression d un g ne dans ce document et des variables X1 X typiquement des g notypes pour un SNP cod s additivement et d ajustement l ge le sexe o e repr sente une variable al atoire suppos e normale et de moyenne nulle On a alors pour chaque individu P Y y P e y ao a1 X1i AoX 9 A3X4 X2 ajustements 1 yi do a1X1i 42X2 AaX 1 X oi Pere exp 200 20 o g est la variance de Dans la suite on simplifiera l criture en appelant x le vecteur 1 x1 Xj X1iX2 ajustements et a le vecteur dg a do a3 ajustements permettant d avoir axt dg a1 X1i a2X2 A43X1iXz ajustements Si Pon consid re que les observations sont ind pendantes les individus ne sont pas apparent s on peut faire le produit des probabilit s de chacune des observations pour calculer la probabilit parmi tous les chantillons possibles d obtenir notre chantillon d observations C est ce que l on appelle la vraisemblance des observations nt VCD to n 1 I 2 i 270 20 en passant au logarithme on obtient la log vraisemblance de l cha
58. on peut retrouver la s quence d ADN de d part Il aura fallu un peu plus de 10 ans pour que le projet g nome humain aboutisse avec la publication officielle de la premi re s quence d ADN compl te de 30 3 1 Rappel historique Fragmentation de l ADN Amplification mx ss ai M thode de Sanger Next generation sequencing pares uu it Parall lisation du s quen age Ajout de nucl otides et G9 AT de ddNTPs ATGE m Ajout de i C A GT nucl otides G c A T Cc r dans le milieu G Ate ra iT GATEE 4 AG itet Lecture de la C Citi G base ajout e lt x ciit G G TG b THT RR Lecture par comparaison des L longueurs des s quences pe A K 3 GATTACA GCATCTGA AAACGCATC GGAATGATTAC GATGCAATCGCAAAC ATCCGATGGAAT Reconstruction de la s quence compl te GCATCTGATGCAATCGCAAACGCATCCGATGGAATGATTACA FIGURE 3 4 Les techniques de s quen age gauche la m thode de Sanger droite le principe des s quenceurs de nouvelle g n ration l homme en 2004 une premi re s quence ayant t pr publi e en 2001 53 D s lors les scientifiques eurent disposition une s quence de r f rence ce qui facilita grandement la d couverte de nouveaux polymorphismes Ils b n fici rent galement de l av nement des technologies internet et de l arriv e d ordinateurs de plus en plus puissants et le tout permit de faciliter grandement la communication l efficacit
59. ont pu tre r pliqu es et semblent confirmer les associations trouv es dans GHS La pr sence de l all le G du proxy miSNP rs998022 marqueur pour l all le C du proxy miSNP rs317657 de GHS est associ e une augmentation de l expression des g nes YEATS4 p 3 21 x 107 et NOD4 p 7 83 x 10717 et une diminution des genes CNTN6 p 7 56 x 10712 CTRC p 1 54 x 1071 COPZ2 p 2 06 x 10718 KRT9 p 1 11 x 1071 LRRFIP1 p 6 65 x 1073 PCDHA6 p 2 67 x 107 ST5 p 2 51 x 107 et TRAF3IP2 p 5 23 x 10717 voir figure 8 3 Ces associations sont aussi bien pr sentes chez les cas que chez les t moins de l tude Cardiogenics voir figure 8 7 Expression de g ne associ e Cas T moins Probe G ne CHR D but Fin beta SE p beta SE p ILMN_ 1748730 CTRC 1 15764937 15773152 0 05 0 01 1 5106 0 07 0 01 9 010 IMN 2252021 LRRFIP1 2 238536223 238690289 0 11 0 01 9 610 0 14 0 01 1 0107 ILMN 1699317 CNIN6 3 1134628 1445277 0 03 0 01 8210 0 04 0 01 3 3107 IMN 1740494 PCDHA6 5 _ 140207649 140391928 0 08 0 01 4810 0 12 0 01 3 1107 ILMN_1663381 TRAF3IP2 6 111880142 111927320 0 06 0 01 4 9108 0 07 0 01 5 710 IMN 2114422 NOD1 7 30464142 30518392 0 11 0 02 5 110 0 12 0 02 2 210 IMN 1731063 ST5 11 8714898 8932497 0 20 0 03 2 210 0 25 0 03 6 510 ILMN_ 1815205 LYZ 12 69742133 69748012 NA NA NA NA NA NA ILMN_1801387 YEATS4 12 69753531 69784575 0 20 0 03 2 410 0 18 0 02 9 710 IMN 17925
60. plications dans Cardiogenics sont homog nes entre les cas et les t moins voir 8 14 GHS Cardiogenics 5 2 5 11 5 14 5 0 4 4 87 4 84 4 8 4 64 46 4 58 44 4 35 H rs5750504 proxy T T A A T T A A rs1894644 proxy C T C T C T C T Fr quence de l haplotype 0 54 0 06 0 32 0 08 0 52 0 06 0 33 0 09 FIGURE 8 13 Niveaux d expressions du g ne H1FO dans le monocyte selon les haplotypes d riv s du 3utrSNP rs1894644 du g ne H1F0 et du miSNP rs5750504 du microARN hsa mir 659 La paire de SNPs rs1894644 rs5750504 est repr sent e par la paire rs763137 rs2899293 dans GHS et par la paire rs1894644 rs6000905 dans Cardiogenics 113 Chapitre 8 Cap sur la recherche de polymorphismes li s aux microARNs 1817349873 182278768 15107822 rs1042448 15257095 152278768 155750504 151894644 rs6963819 rs10473 rs262404 rs1044561 rs2284385 rs6060539 rs257095 rs1044561 hsa mir 3119 1 D hsa mir 219 1 hsa mir 4636 G hsa mir 659 22 Hsa mir 490 0 hsa mir 3973 ay hsa mir 4755 20 hsa mir 4636 6 ASB1 TMN 1683096 TA DEP TNN 1749070 ASB1 TMN 1683096 HIFO 22 TMN 1757467 MXRA7 IMN 1743836 VA ASB1 TMN 1683096 RBM12 co TMN 1670841 ne ILMN_1683096 181330387 182278768 15213208 153128923 156555591 152278768 182899293 18763137 182350780 187221855 1516928224 182334004 182284390 182425125 186555591 182334004 0 04 0 25 0 02 0 26 0 00
61. r 0 15 dans GHS r 0 14 en Cardiogenics 112 8 4 Recherche d interactions SNP SNP impliqu es dans la variabilit de expression x des g nes H1F0 GALR3 hsa mir 658 EIF3L GCAT ANKRDS54 hsa mir 659 FY EO si l g ne avec son 3 UTR rs5750504 miSNP repr sent en gris Il 159610864 miProxy pour l tude 181894644 rs763137 rs6000905 rs5750504 l miRNA Cardiogenics entre parenth ses Cardiogenics GHS Cardiogenics SE rs1894644 utrSNP Pare rs763137 utrProxy pour l tude 38 200 000 38 220 000 38 240 00 GHS entre parenth ses rs2899293 GHS FIGURE 8 12 Localisation des g nes 3utrSNP miSNP et proxySNPs situ s dans la r gion de l interaction H1FO hsa mir 659 sur le chromosome 22 Analyse haplotypique Dans les deux tudes l all le T du 3utrSNP est associ une forte augmentation de expression du g ne H1F0 B 0 65 p value 1 71 x 107 dans GHS et B 0 79 p value 1 36 x 10740 dans Cardiogenics lorsqu il est port avec l all le T du miSNP rs5750504 voir figure 8 13 Inversement lorsque l all le T de ce 3utrSNP se trouve sur le m me haplotype que l all le A du miSNP l augmentation d expression de H1F0 est plus faible 6 0 23 p value 9 74 x 1071 dans GHS et B 0 26 p value 7 25 x 1078 dans Cardiogenics On peut aussi noter que dans GHS le proxySNP rs763137 qui repr sente le 3utrSNP est aussi le best cis SNP pour le g ne H1FO p value 1 1010 Ces r
62. rempla ants Je leur propose pour la suite de continuer mettre l accent sur les gar ons pour permettre au plus vite l organisation de matchs 11 contre 11 Il ne me para t en effet pas n cessaire de renforcer le club couture d j bien fourni Mamido Kiki Annie Marie Nanou Delphine Miflo Alice et qui ne devrait pas avoir de mal nous concocter de beaux petits maillots pour la prochaine saison J en profite aussi pour remercier les autres quipes et notamment celles de Lajon et Marielle en Y Podium de long vit 2009 2010 2011 2012 Figure 2 Apper u des diff rentes personnes qui ont pass plus d une semaine dans le bureau pendant ma th se NATURE REMERCIEMENTS VOLUME NUMBER 34 FEVRIER 2013 2013 Nature Remerciements Inc All rights reserved esp rant les rencontrer bient t J ai enfin une pens e pour mon grand p re qui vient de prendre sa retraite et qui peut d sormais voir les match d un peu plus haut J esp re qu il pensera nous pr parer des mini saucisses demande mami si tu ne sais pas faire pour quand on viendra Je lui conseille cependant des les mettre au cong lateur pour l instant parce qu on ne va pas venir de suite En ce qui concerne l analyse par Bootstrap Jacknife elle m a permise de r aliser l importance de mes potes de l Ensai et leurs associ e s dans l excellent d roulement de ces trois ann es Un norme merci donc Arnaud et Guillaume les colloc f
63. rents des autres individus cela sugg re donc une implication du g ne dans le ph notype Il peut aussi tre int ressant d identifier les polymorphismes qui affectent l expression des g nes car ceux ci ont alors de bonnes chances d avoir des effets sur certains ph notypes On verra un peu plus tard que c est ce second objectif que j ai vis lorsque j ai utilis des donn es d expression au cours de cette th se Le s quen age Les techniques d ing nierie g n tique voqu es pr c demment permirent aussi l apparition dans les ann es 1970 des premi res techniques de s quen age d velopp es par Frederick Sanger 99 Allan Maxam et Walter Gilbert 78 Au contraire du g notypage qui vise seulement conna tre les all les des individus pour certains marqueurs polymorphiques le s quencage a pour but de d terminer compl tement les s quences g n tiques des individus Rapidement la technique mise au point par Sanger se popularisa Elle permit en particulier le lancement en 1990 du projet g nome humain avec pour mission de s quencer enti rement notre g nome La partie gauche de la figure 3 4 r sume succinctement le principe de cette m thode de s quen age Apr s avoir fragment l ADN d un individu chaque fragment est amplifi puis mis en contact avec une enzyme d ADN polym rase des amorces pour entamer la copie des brins des nucl otides de chaque type ainsi qu un seul des quatre did soxyrib
64. s assurer de ne pas avoir trop de faux positifs c est dire de ne pas trop nous tromper en d clarant un des tests significatifs et ce quelque soit hypoth se sous laquelle on se trouve Benjamini et Hochberg 10 propos rent pour ce faire d estimer ce taux 67 5 1 3 Chapitre 5 La gestion des tests multiples de faux positifs couramment appel FDR pour False Discovery Rate en calculant le ratio entre le nombre attendu de tests significatifs par erreur et le nombre de tests k significatifs DR Nombre attendu de tests significatifs par erreur na a Nombre de tests d clar s significatifs RE o n est le nombre total de tests a est le risque d erreur sous HO et k est le nombre de tests effectivement d clar s significatifs On peut alors e choisir comme seuil de significativit pour chaque test la plus grande valeur de a en dessous de laquelle le taux de faux positifs est inf rieur au seuil agpr que Yon s est fix typiquement 5 e pour chaque test estimer la q value le taux de faux positifs parmi tous les tests ayant des p values plus petites que celle du test La q value peut alors tre interpr t e comme la p value a savoir que tous les tests ayant une q value plus petite que Appr sont d clar s significatifs Lorsque le nombre de tests sous H1 est faible le seuil de significativit obtenu par le FDR aura tendance se rapprocher du seuil de Bonferroni Lorsqu il y a beaucoup de tests sou
65. senter un SNP qui n est pas disponible j appellerai ce SNP un proxySNP Les proxySNPs sont identifi s gr ce aux projets de reconstruction d haplotypes notamment les projets HapMap 52 et 1000 g nomes 125 qui fournissent les informations de d s quilibre de liaison entre les polymorphismes La corr lation entre les tests Les m thodes de corrections pour tests multiples d crites au d but de ce chapitre ainsi que les diff rentes techniques permettant d augmenter la puissance globale de d tection des effets recherch s sont performantes lorsque les tests ne sont pas corr l s entre eux sous HO Elles le sont cependant moins lorsqu il y a beaucoup 75 Chapitre 5 La gestion des tests multiples de corr lations Prenons exemple extr me de deux SNPs totalement corr l s c est dire que lorsqu un individu a un certain all le pour l un il a toujours le m me all le pour l autre et inversement Si l on teste s par ment les effets de ces deux SNPs sur le risque d apparition d une maladie les r sultats de ces deux tests vont tre exactement identiques On aura effectu deux tests alors qu un seul suffisait et si l on ne fait pas d ajustement la correction pour tests multiples devient bien trop stringente Certains chercheurs sugg rent d estimer le nombre th orique de tests effectu s appel nombre effectifs de tests et d utiliser ce nombre pour effectuer les corrections pour tests multipl
66. subir de nombreuses recombinaisons chromosomiques Aussi les individus qui partagent le m me ph notype auront tendance recevoir les m mes all les pour tous les marqueurs qui ne sont pas trop loign s du variant responsable du ph notype On appelle ce type d approche l analyse de liaisons Les analyses de liaisons furent tr s utilis es jusqu au d but des ann es 2000 afin de localiser les r gions du g nome susceptibles d abriter les variants impliqu s dans les traits tudi s Apr s avoir identifi ces r gions on pouvait alors y rechercher de nouveau marqueurs afin de r aliser des analyses de liaisons plus fines sur ces r gions Il tait aussi courant d utiliser une autre approche l analyse d associations Les analyses d associations Les analyses d associations se basent sur le d s quilibre de liaison plut t que sur la liaison g n tique familiale ce qui fait qu elles ne n cessitent pas l utilisation de donn es familiales Leur int r t provient du fait que dans la population g n rale le d s quilibre de liaison entre polymorphismes se r duit rapidement mesure que les polymorphismes s loignent Ainsi si l on d couvre que les individus qui partagent un m me ph notype partagent souvent le m me all le pour un certain marqueur cela indique que ce marqueur est tr s proche du polymorphisme impliqu dans le 2 Dans les tudes cas t moins deux groupes d individus sont recrut s p
67. sur 411 cas et 1 228 t moins 599 hommes et 1 040 femmes Crit res de qualit des SNPs Tous les SNPs qui n avaient pas une p value pour le test d Hardy Weiberg sup rieure 107 une fr quence de l all le mineur sup rieure 1 chez les cas et 1 chez les t moins ainsi qu un taux de succ s lors du g notypage d au moins 99 ont t exclu lors des analyses effectu es a partir de cette tude Le nombre de SNPs restant est de 268 356 C est la premi re tude que j ai utilis e pour rechercher des ph nom nes d interactions li s la thrombose veineuse Je lai ensuite tudi en m ta analyse avec l tude MARTHA L tude MARTHA L tude MARTHA pour MARseille THrombosis Association provient du projet du m me nom mis en place par Pierre Emmanuel Morange en 1994 et financ par le Programme Hospitalier de Recherche Clinique PHRC Son objectif est de d couvrir de nouveaux facteurs de risque de la maladie thrombo embolique veineuse en r alisant notamment des tudes d association g nome entier L tude est compos e de deux chantillons ind pendants de patients d origine europ enne recrut s au 78 6 1 Les tudes EOVT et MARTHA centre de thrombophilie de h pital de la timone a Marseille parmi les malades ne pr sentant aucun des facteurs de risque principaux d crit pr c demment Chacun des individus de tude a t g notyp pour plus de 600 000 SNPs Le premier chantillon appel
68. tests effectu s sur le chromosome 20 par les fr quences all liques des SNPs impliqu s dans ces tests Afin de prendre en compte les fr quences all liques de chaque SNP j ai opt pour une pond ration par le produit des fr quences des all les mineurs w freq X freq o freq et freq sont les fr quences des all les mineurs des SNPs 1 et 2 respectivement La figure 7 10 montre les 15 tests qui ressortent le plus apr s cette pond ration dans EOVT et dans MARTHA On peut y voir que les fr quences all liques sont plus fortes dans la figure 7 10 que dans la figure 7 9 Ceci confirme bien qu une pond ration par le produit des fr quences all liques favorise les hypoth ses impliquant des interactions entre SNPs fr quents Par ailleurs on peut noter que dans les deux tudes cette pond ration am liore l g rement la significativit des premiers r sultats Par les p values marginales Il para t int ressant aussi de consid rer une pond ration pas les p values marginales associ es chaque SNP des tests En effet si l on a vu que d un point de vue statistique il n y avait pas d int r t privil gier les interactions impliquant 95 Chapitre 7 la recherche de ph nom nes d interactions dans la maladie thromboembolique veineuse 15487377 0 21 0 228 136075458 0 21 0 409 186043659 0 34 0 601 183746337 0 46 0 414 15761901 0 40 0 938 1 18975137 0 22 0 264 15910901 0 33 0 040 1152268879 0 43 0 0
69. trait tudi on teste nos hypoth ses par des tests statistiques Le but de ce chapitre est d introduire le principe du test statistique Introduction Notre raisonnement au Pile ou Face Supposons que l on nous demande d tablir si il y a tricherie ou non dans un jeu du pile ou face a b FIGURE 4 1 43 4 1 2 Chapitre 4 Les tests statistiques Une personne lance une pi ce de monnaie Elle obtient pile figure 4 1 a Nous ne sommes absolument pas surpris tout comme si elle avait obtenue face d ailleurs Par contre si elle lance 6 fois une pi ce et obtient 6 fois pile figure 4 1 b nous aurions tendance a penser qu elle a trich Chaque pile ind pendamment nous parait possible mais c est la combinaison qui nous surprend car sur un tel nombre d observations on s attend voir des piles mais aussi des faces Lorsque la situation se complique on a recours a un test statistique dont le raisonnement est similaire Dans un test statistique on a deux hypoth ses non tricherie et tricherie dans l exemple pr c dant et l on cherche a e combiner les observations de sorte pouvoir pencher vers l une ou l autre de nos hypoth ses ce qui n aurait en g n ral pas t possible en analysant les observations ind pendamment e valuer si la combinaison semble possible sous nos hypoth ses ce qui nous donne des indications sur l hypoth se la plus probable Apr s avoir bri
70. une mutation survenue puis transmise chez un individu Supposons que la mutation soit survenue sur un chromosome sur lequel est pr sent l all le A du locus A Alors lors de sa cr ation l all le B est toujours li l all le A et le locus B est ainsi en d s quilibre de liaison complet avec le locus A On a f A B 0 et d apr s le tableau D est maximal et vaut D f A1 f B2 Imaginons maintenant que le taux de recombinaisons entre les deux locus A et B soit gal 0 avec 0 0 0 5 Alors d une g n ration k la suivante k 1 la fr quence de l haplotype A By dans la population passe de f A 1B2 a fk 1 41B2 1 0 f Ai Bo Of A1 f B2 ce qui peut se r crire fk 1 41B2 f A f A2 1 O f A1B2 f Ay f Az soit Dx41 1 0 D4 22 2 3 D finitions et caract ristiques li es a la variabilit g n tique et ainsi a la g n ration n ona D 1 7 0 Do Le d s quilibre de liaison D diminue donc de g n ration en g n ration et d autant plus rapidement que le taux de recombinaison est fort Une critique de la mesure D est que celle ci n est pas standardis e Ainsi un d s quilibre de liaison important entre deux polymorphismes peut prendre aussi bien des valeurs proches de 1 que des valeurs tr s faibles si les fr quences des all les en jeu sont faibles C est pourquoi Lewontin proposa d utiliser la mesure D 71 D D
71. une population on appelle la diversit en cet endroit un polymorphisme g n tique Les diff rentes formes qu il peut prendre sont appel es des all les La forme la plus couramment rencontr e est l all le majeur et celle la moins fr quente l all le mineur Chaque individu ayant deux copies de chaque chromosome autosomal il poss de aussi deux versions de chaque polymorphisme Si ces deux versions ou all les sont identiques on dira qu il est homozygote pour ce polymorphisme si elles sont diff rentes on dira qu il est h t rozygote L ensemble des deux all les d un individu pour un polymorphisme donn repr sente son g notype Enfin si l on consid re plusieurs polymorphismes l ensemble des all les situ s sur un m me chromosome d un individu est l un de ses deux haplotypes pour ces polymorphismes cf figure 2 4 Substitution d une base par une autre Le plus souvent une variation g n tique consiste en la simple substitution d un nucl otide par un autre Lorsqu une variation de ce type est pr sent au sein d une population les individus de cette population se retrouvent avoir plusieurs formes possibles parmi A C G ou T pour le nucl otide situ au locus de la variation Comme les mutations sont un ph nom ne tr s peu fr quent il est extr mement rare que deux mutations surviennent exactement la m me position Les polymorphismes les plus couramment rencontr s sont donc des varia
72. unrestricted use distribution and reproduction in any medium provided the original author and source are credited Funding The Gutenberg Health Study is funded through the government of Rheinland Pfalz Stiftung Rheinland Pfalz f r Innovation contract AZ 961 386261 733 the research programs Wissen schafft Zukunft and Schwerpunkt Vaskul re Pravention of the Johannes Gutenberg University of Mainz and its contract with Boehringer Ingelheim and PHILIPS Medical Systems including an unrestricted grant for the Gutenberg Health Study The present study was supported by the National Genome Network NGFNplus contract A3 01GS0833 and 01GS0831 and by a joint funding from the Federal Ministry of Education and Research Germany contract BMBF 01KU0908A and from the Agence Nationale de la Recherche France contract ANR 09 GENO 106 01 for the project CARDomics CARDIOGENICS was funded by the European Union FP6 program LSHM CT 2006 037593 NJ Samani holds a Chair supported by the British Heart Foundation Work described in this paper is part of the research portfolio supported by the Leicester NIHR Biomedical Research Unit in Cardiovascular Disease Collection of the Cardiogenics controls was part supported through the Cambridge Bioresource which is funded by the NIHR Cambridge Biomedical Research Centre Statistical analyses benefit from the C2BIG computing centre funded by the Fondation pour la Recherche M dicale La R gion Ile de Franc
73. variances sont diff rentes entre les diff rents groupes hypoth se H1 ces carts z devraient varier plus fortement entre les groupes qu au hyp i P groupes q 60 4 5 2 4 5 Quelques tests qui ne sont pas bas s sur des mod les sein des groupes d o la statistique du test de Levene Dr Di ja T Staci gt D Gi T gt zij avec k le nombre de groupes Comme nous travaillons sur des g notypes pour des SNPs pour nous k sera gal a 3 La distribution de L sous HO Levene montra que si le ph notype y suit une distribution normale dans chaque groupe alors lorsqu il wy a pas de diff rences de variances entre les groupes lorsque l on est sous HO la statistique L suit une distribution de Fisher Snedecor k 1 et Vin 1 degr s de libert 69 nous sommes donc dans le cas d un test o Yon d duit la distribution exacte de la statistique a partir de la distribution des observations Le graphique 4 7 montre la distribution d une telle statistique lorsque k 3 et le nombre total d observations est de 1467 nombre d individus utilis dans le chapitre 8 Notons que bien que ce test se base sur une hypoth se de normalit du ph notype tudi Howard Levene le d crivit cependant comme relativement robuste au non respect de cette hypoth se 69 FIGURE 4 7 Loi de distribution de Fisher Snedecor 3 et 1467 degr s de libert Le test d Hardy Weiberg A quoi sert il
74. 0 cf p 100 Wu C Gong Y Sun A et al The human MTHFR rs4846049 polymorphism increases coronary heart disease risk through modifying miRNA binding Nutrition metabolism and cardiovascular diseases NMCD 2012 cf p 101 Xu J Hu Z Xu Z et al Functional variant in microRNA 196a2 contributes to the susceptibility of congenital heart disease in a Chinese population Human mutation 30 1231 6 2009 cf p 101 Yang B Lin H Xiao J et al The muscle specific microRNA miR 1 regulates cardiac arrhythmogenic potential by targeting GJA1 and KCNJ2 Nature medicine 13 486 91 2007 cf p 100 Zee R Y L Bubes V Shrivastava S et al Genetic risk factors in recurrent venous thromboembolism A multilocus population based prospective approach Clinica chimica acta international journal of clinical chemistry 402 189 92 2009 cf p 87 Zeller T Wild P Szymczak S et al Genetics and Beyond The Transcriptome of Human Monocytes and Disease Susceptibility PLoS ONE 5 e10693 2010 cf p 103 112 Zhi H Wang L Ma G et al Polymorphisms of miRNAs genes are associated with the risk and prognosis of coronary artery disease Clinical research in cardiology official journal of the German Cardiac Society 101 289 96 2012 cf p 101 Zoller B Berntsdotter A Garcia de Frutos P et al Resistance to activated protein C as an additional genetic risk factor in hereditary deficiency of pr
75. 0 01 call rate gt 0 95 and Hardy Weinberg equilib rium testing p value gt 10 Statistical analysis The association of miSNP proxies with probe expression was tested by use of a standard linear regression model under the assumption of additive allele effects i e proxy genotype coded as 0 1 2 according the number of rare alleles Pair wise SNPs interactions on probe expression were tested using a standard linear regression model in which both SNP miSNP and 3utrSNP genotypes were coded as 0 1 2 together with the corresponding product term for interaction All analyses were adjusted for age and gender and additionally for disease status in CTS In the Gutenberg Health Study a weighted Bonferroni procedure was applied to identify genome wide significant interactions Each 3utrSNP was first assessed using the Levene statistic 29 testing the equality of associated probe expression variance across genotypes The resulting log p value was then used to weight the interaction p value obtained from the linear regression analysis This strategy is expected to be more powerful than a standard Bonferroni correction procedure 60 61 as it gives more weight to interaction involving probes showing higher differences in inter genotype variance For each 3utrSNP u u 1 to Nur associated with a Levene test p value qu we define a standardized weight w as Nutr Wy NutrXNmisnp log q X Nmisnplog q such as N i X wi N where Nur Nmisnp
76. 0 09 0 36 0 37 0 48 0 07 0 40 0 44 0 37 1 49 1 55 1 98 1 37 1 52 0 72 0 52 1 87 1 66 1 66 1 42 1 42 1 57 1 60 1 67 1 55 1 44 0 67 0 43 1 50 0 69 1 69 0 51 1 66 0 61 0 61 1 99 1 44 0 65 1 93 2 04 1 43 1 47 0 65 0 47 1 52 0 71 0 71 6 73 x 107 2 00 x 106 1 12 x 10 2 95 x 10 7 68 x 10 2 88 x 10 TIIR NOP 2 98 x 10 7 90 x 10 4 17 x 106 417 x 10 3 32 x 105 332102 5 49 x 105 9 45 x 10 1 11 x 10 5 51 x 10 4 22 x 10 1 40 x 10 9 92 x 106 7 63 x 10 7 95 x 106 4 59 x 10 4 7 19 x 105 3 07 x 10 8 40 x 10 4 31 x 10 1 20 x 10 1 19 x 10 2 20 x 10 1 92 x 107 1 85 x 10 1 63 x 105 3 77 x 105 9 59 x 10 7 11 x 10 2 48 x 10 4 38 x 10 5 16 x 105 6 00 x 10 6 00 x 10 P 6 00 x 1071 4 24 x 107 4 51 x 107 6 84 x 10 8 36 x 10 9 89 x 10710 1 32 x 10 1 38 x 10 1 42 x 10 1 63 x 10 1 63 x 10 1 75 x 10 1 75 x 10 1 83 x 10 1 90 x 10 2 10 x 10 BNA 0 2 20 x 10 2 93 x 10 3 30 x 10 332 10 3 58 x 10 3 82 x 10 3 86 x 10 4 46 x 10 4 54 x 10 4 70 x 10 4 85 x 10 4 85 x 10 5 26 x 10 6 63 x 10 6 88 x 10 7 14 x 10 8 60 x 10 8 82 x 10 8 82 x 10 9 09 x 10 9 30 x 10 9 67 x 10 9 91 x 10 9 91 x 10 Odds ratiofor VT associated with the interaction of the two minor alleles under a logistic model assuming additive allelic effec
77. 0 48 0 276 i 6 40E 07 1 1 1 1 1 1 1 1 1 1 I 1 1 1 1 1 1 1 1 I 1 1 1 1856088177 0 42 0 476 1s6062014 0 15 0 620 9 44E 07 182327449 0 24 0 299 154809607 0 22 0 899 7 61E 07 186078239 0 04 0 439 186041821 0 18 0 418 1 9 57E 07 186033471 0 31 0 090 136021293 0 28 0 361 7 85E 07 15910901 0 33 0 040 182268879 0 43 0 063 1 9 73E 07 18742754 0 41 0 826 151293144 0 46 0 959 4 8 79E 07 184814489 0 38 0 865 15975137 0 22 0 264 1 07E 06 rs6107581 0 12 0 204 187260918 0 35 0 764 1 9 37E 07 1511086869 0 21 0 092 182224272 0 22 0 098 1 14E 06 15421630 0 38 0 069 182766641 0 46 0 598 9 52E 07 186020391 0 31 0 104 186513544 0 06 0 638 1 42E 06 181998105 0 27 0 040 15761382 0 48 0 686 1 06E 06 183212198 0 43 0 299 183787537 0 24 0 913 1 1 60E 06 15742754 0 41 0 826 151293143 0 42 0 876 1 07E 06 FIGURE 7 9 Les 15 interactions entre les SNPs du chromosome 20 qui ressortent les plus associ es a la thrombose veineuse dans EOVT a gauche et dans MARTHA a droite p value marginale associ e chaque SNP p value li e au terme d interaction Pond rations sur chaque tude Par les fr quences all liques Les r sultats de nos calculs de puissance sur l tude EOVT ont montr que d un point de vue purement statistique il tait plus facile de d tecter des interactions entre SNPs aux all les fr quents qu entre SNPs aux all les rares Il appara t ainsi pertinent d essayer de pond rer les p values des
78. 00 000 000 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 010 CAT Nr Oo 1 0 ommi 1 0 0 1 0 M14 M15 M16 M17 M18 M19 M21 M23 000 000 000 000 000 0 0 000 000 oo 1 Oe ie 1 oO Lr 0 0 10 1 0 0 1 0 0 10 PrO 1a 0 0 0 1 010 1 mon Lt M26 M27 M28 M29 M30 M40 M41 M42 00 0 0 0 0 000 0 0 0 0 0 0 0 oT O 1 1 0O 1 1 1 1 0 1 1 1 1 1 010 OT al 1 0 0 1 0 1 000 Orom 0 0 M43 M45 M57 M58 M59 M61 M68 M69 0 0 000 0 0 00 000 0 0 1 0 0 1 1 Fror 1 i 1 wale al 1 S eek 0 0 0 1 1 0 1 0 0 1 0 1 1 0 0 1 0 1 M70 M78 M84 M85 M86 M94 M97 M98 0 0 1 001 001 omom 001 001 001 0 0 1 000 oom 010 010 i 0 i 100 100 110 110 1 00 il il 1 1 0 i i 001 010 M99 M101 M106 M108 M113 M114 M170 M186 0 0 1 omom 0 0 1 0 0 1 o oni omom 0 10 010 1 0 0 1 0 0 ToO 1 0 1 1 as ye o Pror 1 1 1 0 1 1 iL al 010 100 0 0 1 0 10 010 010 Adapt de Evans et al 2006 Two stage two locus models in genome wide association PLoS Genetique Les 48 types de mod les d interaction p n trance compl te Chaque ligne correspond au g notype pour le premier locus et chaque colonne a celui pour le second locus avec les 1 repr sentant la pr sence ou absence de la maladie En tout il y a 2 512 possibilit s mais du fait de sym tries et de mod les sans interaction 48 sont des mod les d interaction uniques Il y a un peu plus de trois ans Heather Cordell publiait une revue de la litt rature sur les m thodes de d tection d interactions entre g nes impliqu s dans les maladies h
79. 1 0 31 0 090 rs3787537 0 24 0 913 1 1 60E 06 1 01E 06 rs214833 0 27 0 260 rs6108790 0 29 0 542 1 91E 06 1 04E 06 rs1475670 0 51 0 682 FIGURE 7 11 Les 15 interactions entre les SNPs du chromosome 20 qui ressortent les plus associ es la thrombose veineuse dans EOVT a gauche et dans MARTHA droite apr s pond ration par les p values marginales p value marginale associ e chaque SNP p value li e au terme d interaction p value du terme d interaction pond r e par les p values marginales On peut voir sur la figure 7 11 que comme attendu ce sont cette fois les hypoth ses pour lesquelles les p values marginales sont faibles qui sont favoris es 96 7 5 3 7 5 Pond rations et combinaisons On remarque aussi que cette pond ration ne semble pas apporter d am lioration par rapport aux r sultats non pond r s Combinaison des tudes Pour ce qui est de la combinaison des tests entre les deux tudes j ai utilis la m thode classique de Fisher voir chapitre 5 On peut voir les r sultats de cette combinaison sur la figure 7 12 L am lioration par rapport aux r sultats non combin s et non pond r s figure 7 9 n est pas flagrante partie gauche du tableau ce qui sugg rerait une absence de ph nom nes d interactions r els parmi les hypoth ses test es La partie droite du tableau montre cependant qu en favorisant les hypoth ses impliquant des SNPs fr quents il y a l encore une a
80. 110 000 33 130 000 33 150 000 33 170 000 rs107822 FIGURE 8 10 Localisation des g nes 3utrSNP miSNP et proxySNPs situ s dans la r gion de l interaction HLA DPB1 hsa mir 219 1 sur le chromosome 6 La l gende de la figure est la m me que celle de la figure 8 12 Analyse haplotypique Dans GHS l analyse haplotypique des proxySNPs r v le que l all le A du 3utrSNP rs1042448 est associ une forte augmentation de l expression du g ne HLA DPB1 B 0 61 p value 1 64 x 107 lorsqu il est associ e l all le C du miSNP rs107822 voir figure 8 11 Inversement lorsqu il est associ avec l all le T du miProxy rs107822 l effet de l all le A du 3utrSNP rs1042448 du g ne HLA DPB1 est significativement r duit p value 1 88 x 10 7 et passe B 0 18 p value 111 8 4 5 Chapitre 8 Cap sur la recherche de polymorphismes li s aux microARNs 3 49x 1078 ce qui illustre bien le ph nom ne d interaction identifi par la r gression Cette interaction reste significative p value 2 81 x 1071 si Pon ajuste l analyse haplotypique par le best cis SNP affectant l expression de HLA DPB1 rs3128963 p value 2 30 x 107151 voir la base de donn es GHS_Express 138 Les m mes motifs se retrouvent dans Cardiogenics voir figure 8 11 l augmentation du niveau d expression du g ne HLA DPB1 est importante lorsque l all le A du 3utrSNP est port sur le m me haplotype que l all le C du miSNP 8
81. 1293143 0 42 0 8764 1 07E 06 4 01E 07 186110458 0 21 0 587 1 5 12E 07 4 76E 07 151983702 0 2 0 251 3 57E 07 4 93E 07 15761382 0 48 0 686 i 1 06E 06 5 25E 07 186061928 0 47 0 383 1 64E 06 5 85E 07 rs6021293 0 28 0 361 7 85E 07 5 94E 07 rs6126251 0 21 0 4801 5 49E 07 6 18E 07 181293144 0 46 0 959 2 27E 06 6 20E 07 186043659 0 34 0 601 15761901 0 40 0 938 15487377 0 21 0 228 15979242 0 37 0 872 15910901 0 33 0 040 152326660 0 17 0 900 156132784 0 19 0 379 186105852 0 46 0 027 184814489 0 38 0 865 186131222 0 43 0 586 15283273 0 43 0 296 156064733 0 25 0 136 156088177 0 42 0 476 153212198 0 43 0 299 156085054 0 40 0 608 183746337 0 46 0 414 15975137 0 22 0 264 156075458 0 21 0 409 156021083 0 30 0 576 182268879 0 43 0 063 i 2 09E 07 8 70E 08 184811206 0 45 0 796 1 2 12E 07 1 56E 07 184811206 0 45 0 796 1 2 09E 07 3 12E 07 rs6038151 0 28 0 582 1 6 22E 07 3 63E 07 rs8120756 0 36 0 711 1 9 73E 07 4 37E 07 187264608 0 16 0 039 156123082 0 29 0 621 i 3 53E 07 4 69E 07 rs742754 0 41 0 826 rs6125111 0 41 0 959 8 74E 07 7 03E 07 rs421630 0 38 0 069 rs2268879 0 43 0 063 2 53E 06 8 13E 07 rs742754 0 41 0 826 15975137 0 22 0 264 1 1 07E 06 8 29E 07 181777361 0 33 0 064 15734532 0 28 0 570 1 77E 06 9 43E 07 rs6054992 0 24 0 215 rs1739591 0 41 0 590 H 2 62E 06 9 49E 07 rs1998105 0 27 0 040 rs2284803 0 17 0 594 6 43E 07 9 61E 07 rs6126343 0 39 0 287 rs6062014 0 15 0 620 9 44E 07 9 71E 07 rs603347
82. 152 3 5 10 20 50 FIGURE 7 4 Densit des effets d interaction minimum d tectables en suivant le crit re de s lection des SNPs en ratio d odds ratio chelle logarithmique et sans terme d interaction ont le m me profil de magnitude d effet d tectable que l ensemble des interactions Ce n est en revanche pas le cas pour les SNPs fr quents courbe verte pour lesquels on peut tre confiant que si ils affectent fortement la maladie odds ratios sup rieurs 5 sur la figure en interaction avec d autres SNPs fr quents nous seront en mesure de d tecter de tels effets Ces r sultats sugg rent que d un point de vue statistique il est pr f rable de s lectionner des SNPs fr quents pour tester des interactions SNP SNP que de s lectionner des SNPs qui seuls semblent associ s a la maladie Associations dans l tude MARTHA m ta analyse Nous avons ensuite d cid de tester dans l tude MARTHA toutes les associations ayant eu une p value inf rieure 1074 dans l tude EOVT La plus petite p value 6 73 x 1077 n appara t pas significative apr s correction pour tests multiples seuil de Bonferroni 0 05 2126084 2 35 x 1078 Nous avons donc d cid d augmenter la puissance de nos tests en effectuant une m ta analyse par la m thode de Stouffer d crite dans le chapitre 5 Celle ci ne permit pas non plus de trouver des interactions significatives apr s correction de Bonferroni mais nous a cepe
83. 164 Title Abstract Keywords genetic interaction Itifactorial diseases Recently Genome Wide Association Studies GWAS have led to the discovery of numerous genetic polymorphisms involved in complex human diseases However these polymorphisms contribute only a little to the overall genetic variability of these diseases suggesting the need for new kind of investigations in order to disentangle the so called missing heritability The purpose of my PhD project was to investigate how different research strategies relying on statistical and biological considerations could help in determining whether part of this missing heritability could reside in interaction phenomena between genetic polymorphisms Firstly we applied different statistical methodologies and looked for interactions between polymorphisms that could influence the risk of venous thrombosis VT Even though this study was based on two large GWAS datasets we were not able to identify pairwise interactions that survive multiple testing This work suggests that strong interactive phenomena between common SNPs are unlikely to contribute much to the risk of VT Second by adopting a hypothesis driven approach relying on biological arguments we sought for interactions between microRNA related polymorphisms that could alter genetic expression Using two large GWAS datasets in which genome wide monocyte expression was also available we were able to demonstrate the existe
84. 17657 0 02 0 003 1 1610 NA 1317657 0 04 0 003 9 4410 NA 15317657 0 03 0 003 274107 NA 15998022 0 06 0 007 15317657 0 05 0 008 7 2510 NA 15998022 0 12 0 013 181889470 hsa mir 197 1 110141421 ILMN 1696003 GNAI3 1 110091185 110138451 156663547 187522956 hsa mir 4742 1 224585958 ILMN_1714759 CNIH4 1 224544594 224563690 1512731630 186709245 hsa mir 4784 2 132248876 ILMN_1766902 FAM128A 2 132241532 132250063 1812463867 181829515 hsa mir 4448 3 183604723 ILMN_1688464 MAP6D1 3 183533663 183543392 15262998 181829515 hsa mir 4448 3 183604723 ILMN_1651964 ABCC5 3 183637721 183735726 rs1402003 181829515 hsa mir 4448 3 183604723 ILMN_1706531 ABCC5 3 183637721 183735726 1817817736 1510934682 hsa mir 544b 3 124451312 ILMN_1757437 UMPS 3 124449212 124464039 15614664 18778594 hsa mir 3655 5 140027304 ILMN 1678957 WDR55 5 140044383 140050552 _ 12563335 15778594 hsa mir 3655 5 140027304 ILMN 2180624 TMCO6 5 140019011 140024988 1817208187 15778594 hsa mir 3655 5 140027304 ILMN 1715113 HARS2 5 140071017 140078889 152245643 1817165405 hsa mir 4461 5 134263701 ILMN_1714599 CAMLG 5 134074205 134087846 1511950943 18403569 hsa mir 1236 6 31924880 JILMN_1765532 RDBP 6 31919863 31926863 15522162 15408569 hsa mir 1236 6 31924880 JILMN_ 1666512 SKIV2L 6 31926580 31937531 15387608 18107822 hsa mir 219 1 6 33175575 ILMN_1749070 HLA DPB1 6 33043759 33054975 rs3128963 184351242 hsa mir 3135b 6 32717722 J ILMN_1661266 HLA DQB1 6 32627656 32634465 159272346 1810496
85. 187944477 1513053817 2 02107 3 2210 2 92 10 SPRY1 4 ILMN_ 2329914 18300574 hsa mir 4666 1 rs 16841344 rs4653963 rs300555 1 52 101 1 16 10 5 10 10 HLA DPB1 6 ILMN_1749070 151042448 hsa mir 219 1 6 ts 107822 ts 213208 183128923 126101 4 11 10 Tilo ASB1 2 ILMN_1683096 152278768 hsa mir 4636 5 18257095 186555591 182278768 1 0910 1 3410 1 20 10 RFPL1 22 ILMN_1797383 rs 13053624 hs a mir 4292 9 1s 2811749 182811749 1513053817 198101 3 22 105 2 86 1011 RFPL1 22 ILMN_ 1797383 rs 13053624 hsa mir 624 14 1511156654 1511156654 1513053817 2 20 10 3 22 10 3 18 10 GPRCSC 17 ILMN_1724211 1s 2706527 hs a mir 3667 22 15135771 15135775 182706526 5 4610 5 08 107 4 52107 H1FO 22 ILMN_1757467 rs 1894644 hsa mir 659 22 185750504 rs 2899293 15763137 2 98 107 1 30 107 2 18 10 ECE1 il ILMN_1672174 15 3026907 hsa mir 548n 7 rs1649215 rs 1637670 rs9287035 1 64108 9 07 10 DISPO RFPL1 22 ILMN_ 1797383 rs 13053624 hsa mir 521 1 19 184803178 184803178 1s 13053817 2 88 10 3 22 10 4 16 107 GPRCSC 17 ILMN_2352090 182706527 hs a mir 3667 22 15135771 15135775 152706526 1 06107 6 63 10 10 6 80 10 GPRC5C 17 ILMN_2352090 182706527 hsa mir 107 10 1517481096 1517481096 r52706526 1 20107 6 63101 7 69 1077 HLA DPB1 6 ILMN_1749070 rs 1042448 hsa mir 219 1 6 ts 213210 15213210 153128923 8 9810 4 11 10 7 88 10 MXRA7 17 ILMN_1743836 1s 10473 hsa mir 490 7 156963819 152350780 187221855 2 66107 6 10 10167 1 04 10 SPRY1 4 ILMN_1651610 1s300574 hs a mir 4666 1 r
86. 2 69667075 JILMN 2252021 LRRFIP1 2 238536223 238690289 181463335 hsa mir 1279 12 69667075 JILMN 1699317 CNTN6 3 1134628 1445277 NA 181463335 hsa mir 1279 12 69667075 J ILMN_1740494 PCDHA6 5 140207649 140391928 NA 181463335 hsa mir 1279 12 69667075 JILMN_1663381 TRAF3IP2 6 111880142 111927320 NA 181463335 hsa mir 1279 12 69667075 JILMN 2114422 NOD1 7 30464142 30518392 NA 181463335 hsa mir 1279 12 69667075 JILMN 1731063 ST5 11 8714898 8932497 1317657 0 06 0 007 2 05 107 13998022 0 22 0 019 181463335 hsa mir 1279 12 69667075 ILMN_1815205 12 69742133 69748012 rs11177644 rs317657 0 20 0 010 13610 61710 0 34 15998022 NA NA 151463335 hsa mir 1279 12 69667075 ILMN_1801387 YEATS4 12 69753531 69784575 1511177644 1317657 0 15 0 010 13210 0 734 0 34 13998022 0 19 0 020 182304355 0 28 0 019 1812731630 0 06 0 023 186709245 NA NA 181554397 0 10 0 013 181554397 0 10 0 017 181554397 0 09 0 019 1513146 0 05 0 008 181583005 0 02 0 010 181583005 0 08 0 008 181583005 0 02 0 013 189285933 NA NA 15438999 0 09 0 023 18438999 0 11 0 022 19439205 0 10 0 027 187774954 0 51 0 109 153873334 0 04 0 019 15221277 0 29 0 020 181186717 NA NA NA NA NA NA 009 NA NA 043 NA 1510100449 0 04 0 018 182895219 0 04 0 005 11163073 0 88 NA 183008373 0 19 0 019 1s3008373 0 05 0 040 183740487 NA NA 183740487 0 26 0 016 112282098 0 13 0 018 rrs12282098 NA
87. 22 hsa mir 4640 6 30858857 JILMN_1812262 DDR1 6 30851860 30867932 rs4711249 18221299 hsa mir 153 2 7 157366855 ILMN_1728844 PTPRN2 7 157331749 158380481 15221296 181649215 hsa mir 548n 7 34980643 JILMN_1791296 DPY19L1 7 34968492 35077652 15328928 1810243209 hsa mir 5480 7 102046328 ILMN_1657317 POLR2J 7 102113546 102119380 1s11764413 1510243209 hsa mir 5480 7 102046328 ILMN_1804490 PRKRIP1 7 102036803 102067128 rs6958795 1510243209 hsa mir 5480 7 102046328 ILMN_1699049 PMS2L3 7 75137068 75157393 NA 152898254 hsa mir 598 8 10892530 J ILMN_1725338 CLDN23 8 8559665 8561616 15940031 182104533 hsa mir 4670 9 95290456 J ILMN_1748241 CENPP 9 95087740 95377445 1s10992312 187911488 hsa mir 1307 10 105154089 ILMN_1773313 USMG5 10 105148813 105156222 182271751 187911488 hsa mir 1307 10 1051540890 ILMN 1772706 AS3MT 10 104629209 104661655 rs4919690 153008373 hsa mir 202 10 135060872 ILMN_1775074 TUBGCP2 10 135093137 135122643 153008334 153008373 hsa mir 202 10 135060872 ILMN 1782352 VENTX 10 135051407 135055432 156537595 184919510 hsamir 608 10 102734778 ILMN_1678974 MRPL43 10 102737578 102747271 183824783 184919510 hsamir 608 10 102734778 ILMN_2258774 MRPL43 10 102737578 102747271 183740488 1811082942 hsa mir 1343 11 34963459 ILMN_2128293 APIP 11 34903841 34937938 rs2915178 1511032942 hsa mir 1343 11 34963459 JILMN 1793598 APIP 11 34903841 34937038 r52915214 181463335 hs mir 1279 12 69667075 ILMN 1748730 CTRC 1 15764937 15773152 151463335 hsa mir 1279 1
88. 35 GA 22 0 30 0 28 1s 1910358 TA 5 1599815955 TG 2v 10237 012 rs6771725 G T 3 rs 10507246 G T 12 0 26 0 08 1s 16865717 AE 2 rs 2009579 CYR 20 10 27 0 36 152028385 ASG 12 ts 2038227 AZ 16 f 0 16 0 39 rs 10476160 ASG 5 ts 1707420 C T 8 0 21 0 48 15971572 CA 1 rs 10828151 Af 10 f 0 32 0 07 186858430 GAP 4 rs 4800250 ASG 18 0 20 0 40 18467650 TA 5 rs 7153749 TC 14 f 0 36 0 44 1857153749 TA 14 18467650 TC 5 0 44 0 36 Common minor alleles Minor Allele Frequency 172 1 64 1 96 2 37 1 81 1 64 0 55 0 43 2 61 1 92 1 92 1 75 1 75 2 14 1 97 2 14 1 71 1 61 0 57 0 35 1 99 0 61 0 52 0 51 2 46 0 29 2 49 0 51 0 51 2 41 1 63 0 58 2 21 2 60 1 90 2 19 0 56 0 35 1 86 0 59 0 59 P 1 85 x 10 4 10 x 10 3 76 x 10 4 32 x 10 35210 7 36 x 10 7 13 x 107 8 61 x 105 1 92 x 10 7 24 x 105 7 24 x 10 4 59 x 10 4 59 x 10 2 28 x 10 2 73 x 105 2 32 x 105 7 94 x 10 9 44 x 105 3 27 x 10 6 84 x 10 3 15 x 10 9 59 x 10 9 27 x 108 2 66 x 10 1 04 x 105 2 56 x 10 6 00 x 106 6 77 x 105 6 77 x 10 4 64x 10 6 05 x 10 7 47 x 10 9 60 x 10 4 02 x 10 5 22 x 10 3 36 x 107 6 35 x 105 3 43 x 10 2 44 x 105 1 69 x 10 1 69 x 10 0 38 0 31 0 47 0 42 0 49 0 46 0 42 0 12 0 29 0 20 0 36 0 44 0 19 0 24 0 16 0 34 0 40 0 27 0 36 0 23 0 30 0 32 0 07 0 39 0 20 0 25 0 17 0 44 0 26 0 11
89. 5 16 10 9 07 10 7 42 10 ASB1 2 ILMN_1683096 rs2278768 hsa mir 125b 2 21 rs2823897 rs2211981 rs2278768 5 30 10 13410 5 85 10 RFPL1 22 LMN_1797383 rs13053624 hsa mir 4300 11 rs11603185 rs7944477 rs13053817 2 02 107 3 22107 2 92 107 SPRY1 4 ILMN_2329914 rs300574 hsa mir 4666 1 rs16841344 rs4653963 rs300555 15210 1 11610 2 5 10 10 2 HLA DPB1 6 LMN_1749070 rs1042448 hsa mir 219 1 6 rs107822 rs213208 rs3128923 12610 41110 1 11 10 ASB1 2 ILMN_1683096 rs2278768 hsa mir 4636 5 rs257095 rs6555591 rs2278768 1 09 10 1 341076 1 20107 RFPL1 22 LMN_1797383 rs13053624 hsa mir 4292 9 rs2811749 rs2811749 rs13053817 1 98 10 32210 2 86107 RFPL1 22 ILMN 1797383 rs13053624 hsa mir 624 14 rs11156654 r511156654 rs13053817 2 20 10 3 22105 3 18 107 GPRC5C 17 LMN_1724211 rs2706527 hsa mir 3667 22 rs135771 rs135775 rs2706526 5 46 107 5 08 10 7 4 52 10 H1FO 22 ILMN 1757467 rs1894644 hsa mir 659 22 rs5750504 rs2899293 rs763137 2 98 10 13010 2 18 10 ECE1 1 LMN_1672174 r53026907 hsa mir 548n 7 rs1649215 rs1637670 rs9287035 1 64107 9 07 10 2 37 107 RFPL1 22 ILMN 1797383 rs13053624 hsa mir 521 1 19 rs4803178 rs4803178 rs13053817 2 88 107 3 2210 4 1610 GPRC5C 17 LMN_2352090 rs2706527 hsa mir 3667 22 rs135771 rs135775 rs2706526 1 06 10 7 6 63 10 6 80 10 GPRC5C 17 ILMN 2352090 rs2706527 hsa mir 107 10 rs17481096 rs17481096 rs2706526 12010 7 6 63 10 7 69 10 1 HLA DPB1 6 LMN_174
90. 56 1 69 0 62 0 42 1 62 0 67 0 67 P 6 00 x 1011 4 24 x 10 4 51 x 10 6 84 x 107 8 36 x 10 1 9 89 x 10 1 132x 10 gt 1 38 x 10 1 42 x 10 1 63 x 10 1 63 x 10 1 75 x 10 11715 xs 107 1 83 x 10 1 90 x 10 2 10 x 10 2 107 2 20 x 10 2 93 x 10 3 30 x 10 3 33 x 10 3 58 x 10 3 82 x 10 3 86 x 10 4 46 x 10 4 54 x 10 4 70 x 10 4 85 x 10 4 85 x 10 5 26 x 10 6 63 x 10 6 88 x 10 7 14 x 10 8 60 x 10 8 82 x 10 8 82 x 10 9 09 x 10 9 30 x 10 9 67 x 10 9 91 x 10 9 91 x 10 FIGURE 7 5 Les 41 interactions ayant une p value inf rieure 1078 dans la m ta analyse des tudes EOVT et MARTHA L chantillon global est ainsi compos de 1953 cas et de 2338 t moins All le majeur mineur Fr quence de l all le mineur Odds ratio de l interaction pour le risque de thrombose veineuse dans un mod le logistique avec des effets all liques additifs Odds ratio combin en pond rant par inverse de la variance 182836978 est un proxySNP pour rs9981595 r 1 92 7 4 7 4 Associations avec certains biomarqueurs de la maladie Associations avec certains biomarqueurs de la maladie Bien que l on n ait pas pu d tecter d interaction significative par la m ta analyse des tudes EOVT et MARTHA il reste cependant possible que certaines interactions soient int ressantes d un point de vue biologique mais que leur effet sur la
91. 63 1511086869 0 21 0 092 152224272 0 22 0 098 186064733 0 25 0 136 152284803 0 17 0 594 1856105852 0 46 0 027 152268879 0 43 0 063 182423011 0 35 0 214 1 186096260 0 38 0 006 156034465 0 17 0 337 1rs12624715 0 13 0 039 186020391 0 31 0 104 136513544 0 06 0 638 153810510 0 14 0 306 1510485442 0 21 0 019 186078239 0 04 0 439 rs6041821 0 18 0 418 182326660 0 17 0 900 1 rs6123082 0 29 0 621 186041386 0 20 0 290 156067931 0 20 0 122 182249353 034 0314 rs10485569 012 0241 2 09E 07 2 04E 07 157264608 0 16 0 039 2 09E 07 3 47E 07 186038151 0 28 0 582 2 12E 07 3 50E 07 1s6054992 0 24 0 215 9 73E 07 3 76E 07 181777361 0 33 0 064 1 14E 06 5 61E 07 186033471 0 31 0 090 6 43E 07 5 90E 07 15214833 0 27 0 260 2 53E 06 9 14E 07 rs1998105 0 27 0 040 3 15E 06 1 09E 06 rs878198 0 33 0 000 2 27E 06 1 21E 06 rs421630 0 38 0 069 1 42E 06 1 21E 06 rs4811206 0 45 0 796 2 84E 06 1 28E 06 rs4814789 0 17 0 018 9 57E 07 1 30E 06 rs673261 0 29 0 108 3 53E 07 1 40E 06 rs8120756 0 36 0 711 2 11E 06 1 46E 06 182745756 0 19 0 046 1 68E 06 1 51E 06 14811206 045 0796 156128273 0 09 0 454 183092379 0 42 0 035 181983702 0 2 0 251 186110458 0 21 0 587 186021293 0 28 0 361 186126251 0 21 0 480 15761382 0 48 0 686 186068770 0 06 0 894 182766641 0 46 0 598 181293144 0 46 0 959 186128273 0 09 0 454 186127376 0 14 0 001 182567608 0 48 0 276 186127015 0 43 0 212 151293143 042 0876 6 06E 08 4 19E 08 3 78E 07 2 71E 07 3 57E 07 3
92. 68 KRTO 17 39722092 39728309 0 12 0 02 23107 0 10 0 02 3 6106 LMN 1667361 COPZ2 17 46103532 46115151 0 09 0 02 8 1108 0 12 0 02 5310 FIGURE 8 7 Associations entre le miSNP rs1463335 et les g nes CTRC LRRFIP1 CNTN6 PCDHA6 TRAF3IP2 NOD1 ST5 LYZ YEATS4 KRT9 et COPZ2 chez les cas ainsi que chez les t moins d apr s l tude Cardiogenics Recherche d interactions SNP SNP impliqu es dans la variabilit de expression des g nes Chacun des 3utrSNPs fut ensuite test en interaction avec tous les miSNPs sur les expressions des sondes du g ne dans lequel il se trouve Comme pour la recherche d association directe le mod le utilis est un mod le lin aire int grant les deux SNPs ainsi que leur terme d interaction le tout ajust sur l ge et le sexe Ces mod les sont d crits plus en d tail dans le chapitre 4 Le nombre total d interactions test es fut de 4 890 102 Correction pour tests multiples avec pond ration Au lieu d appliquer la correction pour Bonferroni standard pour g rer le grand nombre de tests effectu nous avons suivi la suggestion de Pare et al 88 en adoptant une correction pour Bonferroni pond r e par la p value du test de Levene 108 8 4 2 8 4 3 8 4 Recherche d interactions SNP SNP impliqu es dans la variabilit de l expression des g nes La m thode de pond ration a t d crite dans le chapitre 5 alors que le test de Levene a t pr sent au chapitre 4
93. 7 182710201 1512541254 184507975 1s2771051 rs 10516089 1510504130 15318497 156695223 rs 1336708 rs 1423386 186771316 18664910 189945428 1s 1910358 186771725 rs 16865717 1s 2028385 1s 10476160 15971572 156858430 15467650 157153749 All les CHR GA C T GA CA GA GA CA 6744 TA TC HR OU D 0 R ND WU GW UE HO U ED NH D ND NE 0 MR UE U R amp W ES vw rsID 1s886090 184715555 rs 8086028 186092326 1513050454 154868644 15827637 186497540 15884483 1s6491679 151423386 rs 12880735 1s7714670 rs 7780976 184784379 rs 1204660 1s 10771022 183905075 1s 1937920 183780293 15305009 rs9914518 15827637 1s 11072930 182847351 rs7019259 151763510 rs 1423386 rs 1336708 rs 10986432 18877228 184823535 1599815956 1510507246 12009579 152038227 rs 1707420 rs 10828151 ts 4800250 187153749 15467650 All les GA AG GA CT GA C E GA TG TA TG A G GA TA AZ GA GA G T c r GA GA GA RIISES GA CHR SNP1 0 31 0 41 0 30 0 09 0 41 0 33 0 39 0 09 0 29 0 20 0 29 0 44 0 27 0 27 0 30 0 30 0 43 0 43 0 06 0 35 0 29 0 37 0 32 0 44 0 33 0 39 0 27 0 48 0 43 0 49 0 46 0 41 0 11 0 29 0 20 0 34 0 18 0 25 0 16 0 34 0 41 0 26 0 34 0 23 0 46 0 46 0 28 0 36 OR 1 72 1 64 1 96 2 37 1 81 1 64 0 55 0 43 2 61 1 92 1 92 1 75 2 14 1 97 2 14 1 71 1 61 0 57 0 35 1 99 0 61 0 52 0 51 0 59 P 1 85 x 4 10 x
94. 7035 3 22107 9 07 10 4 63 107 AAK1 2 LMN_1880387 rs13427243 hsa mir 3667 22 rs135771 rs135775 rs13427243 72810 10410 4 80 107 RFPL1 22 ILMN 1797383 rs13053624 hsa mir 604 10 rs2368392 rs3758371 rs13053817 3 69 1078 3 22 10 5 32 107 ECE1 1 LMN_1672174 r53026907 hsa mir 215 1 rs3820455 rs34406824 rs9287035 3 88 10 7 9 07 10 5 58 107 RBM12 20 ILMN 1670841 r56060539 hsa mir 4755 20 rs2284385 rs2284390 rs2425125 4 06 10 7 1 65 10 7 5 62 107 ECE1 1 LMN_1672174 r53026907 hsa mir 2113 6 rs9375085 rs9375085 rs9287035 4 02 10 7 9 07 10 5 79 107 RFPL1 22 ILMN 1797383 rs13053624 hsa mir 1269b 17 rs7210937 rs2240567 rs13053817 4 93 10 3 2210 7 1010 ECE1 1 LMN_1672174 r53026907 hsa mir 4705 13 rs7337292 rs7337292 rs9287035 5 10 10 7 9 07 10 7 33 107 PLOS ONE www plosone org 5 September 2012 Volume 7 Issue 9 e45863 Table 4 Cont miRNA SNPs and Monocyte Gene Expression GHS Levene Gene CHR Probe 3utrSNP miRNA CHR miSNP miProxy 3utrProxy P P value weighted P PKD1L2 16 ILMN_1742788 rs1901818 hsa mir 4473 9 rs16938058 rs16938057 rs7198127 1 24 1078 880107 7 60 10 MRPL43 10 ILMN_1678974 rs2295716 hsa mir 608 10 rs4919510 rs4919510 rs3824783 3 06 10 7 9 68 10 2 9 44 107 ECE1 1 ILMN_1672174 rs3026907 hsa mir 520d 19 rs2217653 rs9304754 rs9287035 6 62 10 7 9 07 10 9 52 107 ASB1 2 ILMN_1683096 rs1044561 hsa mir 4636 5 rs257095 rs6555591 rs2334004 PEYRE Oil OR 9 74 107 1 P v
95. 8 controls rsID All les CHR rsID All les CHRISNP1 rs 493014 TG 9 rs 886090 GA 9 0 31 0 33 rs 1336472 GA 1 rs4715555 ASG 6 0 41 0 39 rs380904 GA 8 rs 8086028 GA 18 0 30 0 27 186815916 ASG 4 1s 6092326 C T 20 0 09 0 48 152282015 TG 10 rs13050454 GA 21 0 41 0 43 ts 7648704 TG 3 rs 4868644 C T 5 0 33 0 49 1s 1985317 TA 9 15827637 GA 10 0 39 0 46 182321744 ALG 13 1s 6497540 TG 16 0 09 0 41 15315122 TG 12 15884483 TC 15 0 29 0 11 1s 1423386 AL 5 1s 6491679 TA 13 0 20 0 29 186491679 TA 13 1s 1423386 ASG 5 0 29 0 20 rs 7714670 TA 5 rs 12880735 GA 14 0 44 0 34 rs 12880735 GA 14 r57714670 TC 5 0 34 0 44 189392653 C T 6 rs 7780976 A 7 0 27 0 18 1s 9804128 ASG 1 184784379 GA 16 0 27 0 25 1s 1364505 GA 7 rs 1204660 GA 20 f 0 30 0 16 152288073 AL 2 1s 10771022 G T 12 f 0 30 0 34 151367228 CA 2 rs3905075 C T 13 f 0 43 0 41 18536477 GA 1 1s 1937920 A G 10 0 43 0 26 1s 2710201 A G 7 1s 3780293 GA 9 0 06 0 34 1512541254 GA 8 rs 305009 GA 15 70 35 0 23 184507975 ASG 1 rs9914518 GA 17 0 29 0 46 1s2771051 TG 9 15827637 GA 10 0 37 0 46 rs 10516089 TA 5 1511072930 TA 15 10 32 0 28 rs 10504130 GA 8 rs 2847351 A G 18 0 15 0 30 15318497 GA 6 rs 7019259 AS 9 0 49 0 07 1s 6695223 TA 1 1s 1763510 Cyan 6 0 12 0 39 rs 1336708 ALG 13 rs 1423386 A G 5 0 26 0 20 1s 1423386 ASG 5 rs 1336708 ASG 13 0 20 0 26 186771316 GA 3 rs 10986432 TC 9 0 14 0 18 15664910 ASG 3 rs877228 GA 15 0 30 0 47 rs9945428 CA 18 rs 48235
96. 9070 rs1042448 hsa mir 219 1 6 rs213210 rs213210 rs3128923 8 98 107 41110 7 88 107 MXRA7 17 ILMN_1743836 rs10473 hsa mir 490 7 rs6963819 rs2350780 rs7221855 2 66 10 7 6 10 10 7 1 04 107 SPRY1 4 LMN_1651610 rs300574 hsa mir 4666 1 rs16841344 r54653963 rs300555 3 82 107 62810 1 12 10 RFPL1 22 ILMN_1797383 rs13053624 hsa mir 1236 6 rs403569 rs550513 rs13053817 7 89107 3 2210 1 14 107 GPRC5C 17 LMN_2352090 rs2706527 hsa mir 941 1 20 rs2427555 rs2427554 rs2706526 2 031077 6 63 10 1 30 107 POGZ 1 ILMN_2329309 rs3811409 hsa mir 4666 1 rs16841344 rs4653963 rs3811409 2 24107 1 12107 1 53 107 RFPL1 22 ILMN_1797383 rs13053624 hsa mir 4643 6 rs16884450 rs16884450 rs13053817 1 28107 32210 1 85 107 ASB1 2 ILMN_1683096 rs1044561 hsa mir 3973 11 rs262404 rs16928224 rs2334004 1 60 10 8 91 10 2 06 107 RFPL1 22 ILMN_1797383 rs13053624 hsa mir 3646 20 rs11574730 rs11574730 rs13053817 1 70 10 3 2210 2 45 107 ECE1 1 ILMN_1672174 rs3026907 hsa mir 4460 5 rs13171514 rs13171514 rs9287035 2 47107 9 07 10 3 55 107 RFPL1 22 ILMN_1797383 rs13053624 hsa mir 3674 8 rs7003112 rs6558541 rs13053817 2 55 107 3 22 10 3 67 10 RFPL1 22 ILMN_1797383 rs13053624 hsa mir 1205 8 rs9649959 rs9649959 rs13053817 2 781078 3 2210 4 02 107 RFPL1 22 ILMN_1797383 rs13053624 hsa mir 4656 7 rs17829969 rs17829969 rs13053817 2 82 107 3 22 10 4 07 107 ECE1 1 ILMN_1672174 rs3026907 hsa mir 4784 2 rs6709245 rs12463867 rs928
97. 930 rs348793 2 33E 04 1 17E 03 5 47E 07 rs6135844 rs1699850c 6 71E 06 6 26E 03 1 33E 06 rs6115830 rs1971447 1 5 90E 03 1 95E 05 5 58E 07 rs7264608 rs6128273 i 5 39E 01 6 06E 08 1 34E 06 rs8120756 rs2567608 1 2 61E 01 6 40E 07 5 78E 07 FIGURE 7 12 P values combin es par la m thode de Fisher sans gauche et avec droite pond ration au pr alable 97 98 8 1 8 1 1 Chapitre 8 che de polymorphismes li s aux microARNs C est pas la taille qui compte Mini ciabattas tomates amp origan blague Monoprix Le chapitre pr c dent a expos les r sultats des mes recherches d interactions SNP SNP impliqu es dans la thrombose veineuse Dans ce chapitre je m attaque ce qui tait au d but de ma th se mon principal projet la recherche d associations entre les polymorphismes li s aux microARNs et l expression des g nes du monocyte Les r sultats pr sent s ici ont fait l objet d une publication pour laquelle je suis premier auteur 42 Motivations et strat gie de recherche Implication des microARNs dans de nombreuses maladies Compte tenu de ce r le r gulateur important il n est pas surprenant que de nombreux microARNs soient rapport s comme tant associ s de nombreuses maladies La base de donn es des maladies li es aux microARNs humains en r pertorie pr s de 400 73 et recense en particulier des associations r currentes avec de nombreux cancers 98 108 Une partie de l att
98. B J et al Sequence variants in SLITRK1 are associated with Tourette s syndrome Science New York N Y 310 317 20 2005 cf p 100 Andrieu N Dondon M G amp Goldstein A M Increased power to detect gene environment interaction using siblings controls Annals of epidemiology 15 705 11 2005 cf p 54 Antoni G Identification de facteurs g n tiques modulant deux ph notypes interm diaires de la maladie thromboembolique veineuse les taux de facteurs VIII et de Von Willebrand th se de doct Universit Paris Sud 2012 cf p 92 Avery O T Macleod C M amp McCarty M Studies on the chemical nature of the substance inducing transformation of pneumococcal types induction of transformation by a desoxyribonucleic acid fraction isolated from pneumococcus type III The Journal of experimental medicine 79 137 58 1944 cf p 26 Barbosa Morais N L Dunning M J Samarajiwa S A et al A re annotation pipeline for Illumina BeadArrays improving the interpretation of gene expression data Nucleic acids research 38 e17 2010 cf p 82 Barenboim M Zoltick B J Guo Y et al MicroSNiPer a web tool for prediction of SNP effects on putative microRNA targets Human mutation 31 1223 32 2010 cf p 109 Bartel D P MicroRNAs target recognition and regulatory functions Cell 136 215 33 2009 cf p 7 123 Bibliographie 9 10 11 12 13 14 15 16
99. C 1 15764937 15773152 ILMN 2252021 LRRFIP1 2 238536223 238690289 3 5 6 ILMN_1699317 CNTN6 1134628 1445277 ILMN_1740494 PCDHA6 140207649 140391928 ILMN_1663381 TRAF3IP2 111880142 111927320 ILMN 2114422 NODI1 7 30464142 30518392 ILMN_1731063 STS 11 8714898 8932497 ILMN_1815205 LYZ 12 69742133 69748012 ILMN_1801387 YEATS4 12 69753531 69784575 ILMN_1792568 KRT9 17 39722092 39728309 ILMN_1667361 COPZ2 17 46103532 46115151 FIGURE 8 3 Associations entre le miSNP rs1463335 et les g nes CTRC LRRFIP1 CNTN6 PCDHA6 TRAF3IP2 NOD1 ST5 LYZ YEATS4 KRT9 et COPZ2 dans GHS et Cardiogenics Des associations significatives m me apr s ajustements L association avec LYZ tant la plus forte j ai recherch son meilleur cis SNP Apr s avoir ajust l expression de LYZ pour son best cis SNP son association en cis avec le proxy miSNP reste significative p 6 17 x 10711 tandis que celle de YEATS4 dispara t p 0 734 D apr s TargetScan un programme en ligne de pr diction de cibles de microARNs les positions 648 654 de la r gion 3 UTR de LYZ sont compl mentaires sur 8 bases au microARN hsa mir 1279 Ce type de compl mentarit appel 8mer est assez habituel dans les s quences r ellement cibl s par les microARN ce qui renforce l hypoth se d une r gulation du microARN sur LYZ Il est important d avoir conscience cependant que ce genre de configuration est relativement courant et n assure en aucune man
100. Ehret G B Munroe P B Rice K M et al Genetic variants in novel pathways influence blood pressure and cardiovascular disease risk Nature 478 103 9 2011 cf p 38 Evans D M Marchini J Morris A P et al Two stage two locus models in genome wide association PLoS genetics 2 e157 2006 cf p 52 125 Bibliographie 36 37 38 39 40 41 42 43 44 45 46 47 48 49 126 Fisher R The maximum likelihood method Messenger in Mathematics 1912 cf p 55 Fisher R Statistical Methods for Research Workers en 4 1925 cf p 73 Friedman R C Farh K K H Burge C B et al Most mammalian mRNAs are conserved targets of microRNAs Genome research 19 92 105 2009 cf p 7 Germain M Saut N Greliche N et al Genetics of venous thrombosis insights from a new genome wide association study PloS one 6 e25581 2011 cf p 78 79 86 94 Greliche N Strat gies de Recherches de Ph nom nes d Interactions dans les maladies multifactorielles th se de doct 2013 cf p 14 Greliche N Germain M Lambert J C et al A genome wide search for common SNP x SNP interactions on the risk of venous thrombosis soumis BMC medical genetics cf p 85 Greliche N Zeller T Wild P S et al Comprehensive Exploration of the Effects of miRNA SNPs on Monocyte Gene Expression PloS one 7 e45863 2012 cf p 99 Griffiths Jones
101. LMN_1672174 15 3026907 hsa mir 215 1 153820455 1534406824 159287035 3 88107 9 07 10 5 58 10 RBM12 20 ILMN_1670841 156060539 hsa mir 4755 20 152284385 182284390 1s2425125 4 06 107 1 65 107 5 62 10 ECE1 1 ILMN_1672174 15 3026907 hsa mir 2113 6 189375085 189375085 189287035 4 02107 9 07 10 5 79 10 RFPL1 22 ILMN_1797383 rs 13053624 hsa mir 1269b 17 1s 7210937 1s 2240567 1s 13053817 4 93 10 3 22 10 7 10 10 EGEL 1 ILMN_1672174 15 3026907 hsa mir 4705 13 187337292 rs 7337292 rs9287035 5 10107 9 07 10 7 33 10 PKDIL2 16 ILMN_1742788 1s 1901818 hs a mir 4473 9 rs 16938058 rs 16938057 1s7198127 1 24 10 8 80 10 7 60 10 MRPL43 10 ILMN_1678974 182295716 hsa mir 608 10 1s4919510 1s4919510 183824783 3 06107 9 68 107 9 44 10 ECE1 1 ILMN_1672174 183026907 hs a mir 520d 19 182217653 189304754 189287035 6 62 107 9 07 1046 9 52 10 ASB1 2 ILMN 1683096 rs 1044561 hs a mir 4636 5 15257095 186555591 1s 2334004 7 57107 8 91107 9 74 10 FIGURE 8 8 Les 51 interactions significatives d apr s la p value pond r e par le test de Levene et apr s correction de Bonferroni mod le que pour l tude GHS mais en ajustant en plus sur le statut malade non malade deux des huit interactions furent r pliqu es au seuil de Bonferroni p value 6 25 x 107 dans Cardiogenics voir figure 8 9 8 4 4 Interaction HLA DPB1 hsa mir 219 1 Localisation La premi re interaction r pliqu e implique le 3utrSNP rs1042448 du g ne HLA DPB1 et le miSNP r
102. LMN_1757467 ILMN_1743836 ILMN_ 1683096 ILMN_ 1670841 ILMN_1683096 Gutenberg Health Study Proxies rs1330387 rs213208 rs6555591 rs2899293 rs2278768 rs3128923 rs2278768 rs763137 po 0 480 0 165 0 233 0 194 Weighted 4 10 107 1 11 107 1 20 107 DAS P value Cardiogenics Transcriptomic Study Proxies rs6703198 rs439205 rs257095 rs6000905 rs10084192 rs3117222 rs10084192 rs1894644 p 0 093 0 274 0 045 0 268 P value 4 62 10 2 03 107 5 18 10 1 37 10 rs2350780 rs16928224 rs2284390 rs6555591 rs7221855 rs2334004 rs2425125 rs2334004 0 065 0 988 0 164 0 375 1 04 107 2 06 107 5 62 107 9 74 10 rs2350780 rs262407 rs2038123 rs257095 rs9910052 rs10084192 rs6121015 rs10084192 0 011 0 025 0 099 0 045 5 98 10 8 2910 72200 5 18 10 1 Regression coefficient of the interaction term when both miSNP and 3utr proxy SNPs coded 0 1 2 according to the number of carried rare alleles are introduced in a linear regression model together with their interaction term 2 P value of the interaction test obtained in GHS when the Levene test p value was used under a weighted Bonferroni framework 3 P value of the interaction test derived from the standard linear regression analysis in Cardiogenics Bold p values are significant after Bonferroni correction doi 10 1371 journal pone 0045863 t005 PLOS ONE www plosone org September 2012 Volume 7 Issue 9 e45863 5 2 5 0 4 97 miRNA SNPs an
103. Lathrop M Tregouet DA Morange PE Genome wide association study for plasma levels of natural anticoagulant inhibitors and protein C anticoagulant pathway the MARTHA project Br J Haematol 2012 157 230 239 Tang W Schwienbacher C Lopez LM Ben Shlomo Y Oudot Mellakh T Johnson AD Samani NJ Basu S Gogele M Davies G et al Genetic Associations for Activated Partial Thromboplastin Time and Prothrombin Time their Gene Expression Profiles and Risk of Coronary Artery Disease Am J Hum Genet 2012 91 152 162 Antoni G Oudot Mellakh T Dimitromanolakis A Germain M Cohen W Wells P Lathrop M Gagnon E Morange PE Tregouet DA Combined analysis of three genome wide association studies on vWF and FVIII plasma levels BMC Med Genet 2011 12 102 Hercberg S Galan P Preziosi P Bertrais S Mennen L Malvy D Roussel AM Favier A Briancon S The SU VI MAX Study a randomized placebo controlled trial of the health effects of antioxidant vitamins and minerals Arch Intern Med 2004 164 2335 2342 3C Study Group Vascular factors and risk of dementia design of the Three City Study and baseline characteristics of the study population Neuroepidemiology 2003 22 316 325 Johnson AD Handsaker RE Pulit SL Nizzari MM O Donnell CJ de Bakker PI SNAP a web based tool for identification and annotation of proxy SNPs using HapMap Bioinformatics 2008 24 2938 2939 Mantel N Haenszel W Statistical aspects of the analysis of data from retro
104. M Gignoux C amp Burchard E G The 1000 Genomes Project new opportunities for research and social challenges Genome medicine 2 3 2010 cf p 75 Wald A Contributions to the theory of statistical estimation and testing hypotheses The Annals of Mathematical Statistics 1939 cf p 46 59 Walker E O Huntington s disease Lancet 369 218 28 2007 cf p 28 Wellcome Trust Case Control Consortium Genome wide association study of 14 000 cases of seven common diseases and 3 000 shared controls Nature 447 661 78 2007 cf p 34 Articles livres th ses 129 130 131 132 133 134 135 136 137 138 139 140 White R H The epidemiology of venous thromboembolism Circulation 107 14 8 2003 cf p 86 Wild P S Zeller T Beutel M et al The gutenberg health study Bundesgesundheitsblatt Gesundheitsforschung Gesundheitsschutz 55 824 30 2012 cf p 81 Wilks S The large sample distribution of the likelihood ratio for testing composite hypotheses The Annals of Mathematical Statistics 1938 cf p 58 Willer C J Li Y amp Abecasis G R METAL fast and efficient meta analysis of genomewide association scans Bioinformatics Oxford England 26 2190 1 2010 cf p 73 Wojcik S E Rossi S Shimizu M et al Non codingRNA sequence variations in human chronic lymphocytic leukemia and colorectal cancer Carcinogenesis 31 208 15 201
105. N are the total number of studied i 1 3utrSNPs miSNPs and interactions respectively Each interaction p value P is then weighted by the w corresponding to the 3utrSNP that is involved in the interaction leading to a weighted p value P Each Pi that is then below 0 05 N is then declared genome wide significant at the 0 05 type I error In Cardiogenics the standard Bonferroni threshold was used to declare significance Identified interactions between pairs of SNPs were illustrated through haplotype analyses conducted by the THESIAS software implementing a Stochastic EM algorithm for haplotype based association analysis 62 All other statistical analyses were performed in R v 2 12 0 September 2012 Volume 7 Issue 9 e45863 Acknowledgments Members of the Cardiogenics Consortium not included in the manuscript Tony Attwood Stephanie Belz Peter Braund Jessy Broche ton Jason Cooper Abi Crisp Hihn Patrick Diemert formerly Linsel Nitschke Nicola Foad Tiphaine Godefroy Jay Gracey Emma Gray Rhian Gwilliams Susanne Heimerl Jennifer Jolley Unni Krishnan Heather Lloyd Jones Ulrika Liljedah I Ingrid Lugauer Per Lundmark Seraya Maouche Jasbir S Moore Gilles Montalescot David Muir Elizabeth Murray Chris P Nelson Jessica Neudert David Niblett Karen O Leary Helen Pollard Carole Proust Angela Rankin Augusto Rendon Catherine M Rice Hen
106. NA 1998022 0 06 0 007 rs998022 0 12 0 010 18998022 0 04 0 006 rs998022 0 10 0 008 184598779 0 07 0 007 1 6910 0 015 0 60 rs4569133 0 11 0 010 187180484 0 10 0 006 18310 0 105 12168519 0 10 0 016 183785626 0 04 0 004 2 3110 0 109 182109262 0 07 0 008 183785626 0 06 0 006 7 3910 0 839 182109262 0 05 0 012 184793601 0 08 0 013 16310 7 0 727 181054072 0 08 0 022 136505162 0 10 0 008 5 6310 0 678 NA NA NA 182040847 0 02 0 003 21210 1 7510 043 NA NA NA 132916074 0 11 0 007 58910 0 257 035 NA NA NA 182916074 0 05 0 013 6 6310 18610 017 NA NA NA 182916074 0 09 0 010 5 6410 0323 0 34 NA NA NA 182916074 0 17 0 007 277107 016 098 NA NA NA 152284390 0 15 0 024 7 8610 0 062 0 20 182038123 0 13 0 030 191821723 0 06 0 018 35810 88910 0 02 rs9610864 0 08 0 027 184821723 0 16 0 003 18810 0376 0 51 rs9610864 0 20 0 005 184821723 0 03 0 009 7 121077 0 922 0 44 139610864 0 03 0 013 184566029 hsa mir 4305 13 40238387 JILMN_1779530 COG6 13 40229763 40365801 rs1028671 182168519 hsa mir 4513 15 75080872 J ILMN_1679495 ULK3 15 75128458 75135551 15936230 183785626 hsa mir 1288 17 16185248 ILMN_1760332 PIGL 17 16120508 16229572 rs1476810 183785626 hsa mir 1288 17 16185248 J ILMN_1703946 ADORA2B 17 15848230 15879209 rs2324142 182271891 hsa mir 3185 17 46802008 JILMN_1810274 HOXB2 17 46620016 46622392 1s12939811 186505162 hsa mir 423 17 28444183 J ILMN_1672834
107. N_1740494 PCDHA6 5 140207649 140391928 0 04 0 003 9 44 10 0 10 0 008 2 67 107 LMN_1663381 TRAF3IP2 6 111880142 111927320 0 03 0 003 2 7410 7 0 06 0 007 5 23 10 7 ILMN_2114422 NOD1 7 30464142 30518392 0 05 0 008 7 25 107 0 12 0 013 7 83 107 LMN_1731063 ST5 11 8714898 8932497 0 06 0 007 2 05 108 0 22 0 019 2 51 10 ILMN_1815205 LYZ 12 69742133 69748012 0 20 0 010 1 3610 7 NA NA NA LMN_1801387 YEATS4 12 69753531 69784575 0 15 0 010 1 32 107 0 19 0 020 3 27 107 ILMN_1792568 KRT9 17 39722092 39728309 0 04 0 006 1 1510 0 11 0 016 1 11 107 LMN_1667361 COPZ2 17 46103532 46115151 0 03 0 005 2 33 10 0 10 0 011 2 06 10718 The rs1463335 was tagged by the rs317657 and rs998022 in GHS and CTS respectively The rs146335 is located on chromosome 12 at position 69 667 075 As a consequence the association observed with LYZ and YEATS4 are considered as cis associations the remaining eight as trans associations Regression coefficient associated with the rare miSNP allele under an additive effect model adjusted for age and gender p value of the association between miSNP and gene expression doi 10 1371 journal pone 0045863 t002 p 1 88x10 7 and became B 0 18 p 3 49107 illustrat ing the interaction phenomenon identified through linear regres analysis This interaction remained significant p 2 81 x10 when the haplotype analysis was further adjusted on the best cis eSNP observed for HLA
108. SSH2 17 27952964 28257017 rs4474741 188078913 hsa mir 4520a 17 6558768 DILMN_ 1794987 ALOX15P 17 6560519 6564747 189889941 182916076 hsa mir 640 19 19545990 J ILMN_1685631 KIAA0892 19 19431629 19469562 15968525 182916076 hsa mir 640 19 19545990 DILMN 2134224 ATPI3A1 19 19756006 19774502 rs16996185 182916076 hsa mir 640 19 19545990 JILMN_ 1662741 LPAR2 19 19734463 19739038 1880090 182916076 hsa mir 640 19 19545990 DILMN_ 1673682 GATAD2A 19 19496641 19619740 rs4808967 152284385 hsa mir 4755 20 32637001 f ILMN_1787410 EIF6 20 33866724 33872593 rs6060244 rs5750504 hsa mir 659 22 38243675 ILMN_ 1757467 H1FO 22 38201113 38203442 rs763137 155750504 hsa mir 659 22 38243675 DILMN 1724437 GCAT 22 38203954 38212903 rs2285177 185750504 hsa mir 659 22 38243675 JILMN_ 1735788 TRIOBP 22 38092994 38172562 rs4821708 FIGURE 8 2 Associations significatives entre les miSNPs et les expressions monocytaires 1 SNPs situ dans une r gion d un million de bases autour du miSNP et affichant la plus forte association avec une p value lt 5 x 107 avec l expression de la sonde associ e 2 Estimation du param tre associ au miSNP apr s ajustement sur l ge et le sexe 3 p value de l association entre le miSNP et l expression du g ne 4 p value apr s ajustement sur le best cis eSNP 5 Corr lation entre le miSNP et le best cis eSNP dans GHS 6 Le best cis eSNP co ncide avec le miSNP 104
109. Slaby O Bienertova Vasku J Svoboda M et al Genetic polymorphisms and MicroRNAs new direction in molecular epidemiology of solid cancer Journal of cellular and molecular medicine 2011 cf p 99 100 Small E M amp Olson E N Pervasive roles of microRNAs in cardiovascular biology Nature 469 336 42 2011 cf p 100 Smith H amp Wilcox K A restriction enzyme from Hemophilus influenzae I Purification and general properties Journal of molecular biology 1970 cf p 27 Speliotes E K Willer C J Berndt S I et al Association analyses of 249 796 individuals reveal 18 new loci associated with body mass index Nature genetics 42 937 48 2010 cf p 38 Steen K V Travelling the world of gene gene interactions Briefings in bioinformatics 13 1 19 2012 cf p 53 Storey T A Principles of hygiene Stanford University Press 1935 cf p 1 Stouffer S Suchman E amp DeVinney L The American soldier adjustment during army life 1949 cf p 73 Student The probable error of a mean Biometrika 1908 cf p 45 131 Bibliographie 116 117 118 119 120 121 122 123 124 125 126 127 128 132 Sturtevant A The linear arrangement of six sex linked factors in Drosophila as shown by their mode of association Journal of Experimental Zoology 14 43 59 1913 cf p 26 Sutton W The chromosomes in heredity The Biologic
110. These probes were then tested for association with all genotyped miSNPs The search for interactions between miSNPs and 3utrSNP was restricted to probes targeting genes known to contain SNPs in their PUTR region that were either directly genotyped in GHS or tagged by genotyped SNPs r2 gt 0 90 This led to the selection of a subsample of 8 768 probes characterizing 6 147 genes In these genes the total number of 3utrSNPs or proxy that were further studied was 10 783 The distribution of the number of 3utrSNPs per gene is given in Table 1 Association of miSNPs with gene expression GHS discovery phase This analysis can be viewed as an ancillary study of the whole genome wide association study between all genotyped SNPs and all expressions already conducted in GHS and whose results can be found in a publicly available resource 23 At the Bonferroni correction level of 7 73 x10 ie 0 05 294 x 22 004 fifty seven associations between miSNPs and gene expression were significant Table S1 However forty eight of these associations implicated miSNPs proxies mapping the genomic region of the genes they were associated with We interrogated the GHS express database to identify the SNPs showing the strongest association with the associated expression among those with p lt 5 50x10 and located within 1Mb of the probe genomic sequence thereafter referred to as the best cis eSNPs 23 In six cases the miSNP proxies were the bes
111. ZA7 pue sapuab abe 104 Bunsnfpe saye s y annippe adAjojdey Buiwunsse pajyewijsa r m spaye adAojdeH 9 01 LT d 3_Ol Ove d o 0L0 9 d o 0l 8E d a 0Ll 0 8 d LTT Y L8T H 80 E 4 WLEE Y 80 4 uoneposse gt d ojdeH zv0 0 vioo 0 0 SLO 0 LS0 0 8Z0 0 L 0 0 910 0 y90 0 80L 0 8200 v7Z0 0 6 0 0 70 0 980 0 S8 0 5 670 0 020 0 0 0 0 110 0 vE0 0 Z00 0 ZT0 0 LLO O 0LO O 9500 SEO 0 LTO 0 LTO O 610 0 0 0 SSL 0 Y 9S0 0 z00 0 Z 0 0 00 0 LS0 0 LLO O 6Z0 0 700 0 sv0 0 0ZL 0 6700 7700 L O O ZL0 0 80 0 L90 0 5 2 92U919 91 92U919 91 92U919 91 92U919 91 92U919 91 66 0 Vv 3 ZZdO2 ZdI J4V41 D41 9NLND LAON Vb9LLLLLSA LSOLLESA wySUoISs21dx3 eue UO spaye d zojdeH s pu nb 4 swusiydiow joq edAojdeH 0L SS7 d 9 0L ZOE d 4 01 OO L d ge_Ol 7S7 sp1 Ol 80 2 4d gg _Ol CL L d 69 07 S 74 db LL H DE TL 999 4 E 6E UH uoneposse 21d4o deH LZO 0 8 0 0 860 0 090 0 60 0 890 0 0200 zs0 0 097 0 LoE 0 0vz 0 Z T 0 S0 0 6400 180 0 L90 0 L8T 0 8ST 0 S8 0 5 900 S 0 0 8200 8 0 0 s90 0 1 0 0 L90 0 Lv0 0 zoo 0L 0 0 0 800 0 LS0 O 8S00 S0 0 LSO O L00 8L0 0 SSL 0 y 9600 1v0 0 ZLL O Zvo0 960 0 LS0 0 80 0 1S0 0 ZLO 9 z 0 L6L O
112. al Bulletin 1903 cf p 26 The ENCODE Project Consortium Identification and analysis of functional elements in 1the human genome by the ENCODE pilot project Nature 447 799 816 2007 cf p 9 Tregouet D A amp Garelle V A new JAVA interface implementation of THESIAS testing haplotype effects in association studies Bioinformatics Oxford England 23 1038 9 2007 cf p 63 Tr gou t D A Heath S Saut N et al Common susceptibility alleles are unlikely to contribute as strongly as the FV and ABO loci to VTE risk results from a GWAS approach Blood 113 5298 303 2009 cf p 78 86 Van Boven H Vandenbroucke J Briet E et al Gene Gene and Gene Environment Interactions Determine Risk of Thrombosis in Families With Inherited Antithrombin Deficiency Blood 94 2590 2594 1999 cf p 87 Van Rooij E Sutherland L B Thatcher J E et al Dysregulation of microRNAs after myocardial infarction reveals a role of miR 29 in cardiac fibrosis Proceedings of the National Academy of Sciences of the United States of America 105 13027 32 2008 cf p 100 Vandenbroucke J P Koster T Bri t E et al Increased risk of venous thrombosis in oral contraceptive users who are carriers of factor V Leiden mutation Lancet 344 1453 7 1994 cf p 87 Venter J C Adams M D Myers E W et al The sequence of the human genome Science New York N Y 291 1304 51 2001 cf p 15 Via
113. alors on s assure que sous HO FWER P une p value lt a P p value lt a ou ou p value lt a 1 n lt X P p value lt a 2 i 1 na 0 05 Ainsi la valeur de FWER restera inf rieure 5 Cette d monstration repose sur l in galit du passage de 1 2 qui peut parfois s av rer relativement forte notamment lorsque les tests sont corr l s positivement Quelques m thodes alternatives ont t propos es pour r duire cette correction tels que les corrections de Sidak 107 ou de Bonferroni Holm 49 Le taux de faux positifs FDR comme alternative au FWER Dans certaines situations il peut arriver que l on soit sous l hypoth se alternative H1 dans un grand nombre des tests effectu s Par exemple certains g nes appel facteurs de transcription sont impliqu s dans le processus de transcription de l ADN en ARN si bien que la variation de leur expression impacte les expressions d un tr s grand nombre d autres g nes Si l on testait l association entre l expression d un de ces facteurs de transcription et les expressions de n autres g nes on serait effectivement sous l hypoth se H1 d une association sur une bonne partie des n tests Dans une telle situation s assurer que la probabilit de se tromper soit faible en d clarant un des tests significatifs lorsque tous sont sous HO para t peu pertinente car au contraire nous avons beaucoup de tests sous H1 On pr f rerait simplement
114. alue of the interaction test derived from the standard linear regression analysis 2 P value of the interaction test obtained when the Levene test p value was used under a weighted Bonferroni framework doi 10 1371 journal pone 0045863 t004 Discussion Coupling genome wide association and expression studies have been an attractive strategy to disentangle the architecture of the genetics of gene expression and to assess whether gene expression dysregulation could mediate the effect of SNPs on disease risk identified through genome wide association studies 23 34 To our knowledge such studies 23 34 37 mainly focused on assessing marginal associations of single SNPs with gene expres sion Even if SNP x SNP interactions have often been advocated as a potential source of phenotype variability 38 39 there has been few attempt to assess at the genome wide scale whether such SNP x SNP interactions could influence gene expression variability This is likely due to the statistical and computing burdens associated with such investigations characterized by a huge number of tested interactions and the very large sample size required to detect genome wide significance We postulated that focusing on plausible biological interactions could be one strategy to dig into the complex architecture of SNP x SNP interactions This is why we undertook what we think is the first systematic and comprehensive search for interactions between SNPs located in
115. ande majorit des calculs et analyses statistiques effectu s dans mes travaux de recherches j ai utilis le logiciel R 92 Il mest cependant galement arriv d utiliser les logiciels PLINK 91 pour certaines recherches d interactions gourmandes en temps de calcul et Thesias 119 lorsqu il j ai eu manipuler des haplotypes 63 64 Chapitre 5 es tests multiples Hoagie Doc can t you just send Bernard Dr Fred No you must all go to increase the odds that one of you will make it there alive Day of the Tentacle http lucasartsoldgames free fr dott Le chapitre pr c dent a permis d introduire le principe du test statistique En pid miologie g n tique cependant on ne cherche g n ralement pas a tester nos hypoth ses concernant l effet d un seul polymorphisme dans la variation d un ph notype mais on formule au contraire une multitude d hypoth ses d effets Ceci nous am ne r aliser une multitude de tests dont les r sultats ne peuvent pas tre interpr t s comme si ils taient uniques Ce chapitre vise a expliquer comment on peut g rer ces tests multiples Lanalogie du loto Supposons qu une personne joue au loto les num ros 16 27 42 47 49 Il y a tr s peu de chances pour que sans tricherie sous HO ces num ros sortent au tirage bien moins de 5 de chances Aussi la personne sera extr mement surprise probablement agr ablement si ils sortent de son point de
116. anquante e Nous avons commenc par rechercher si des ph nom nes d interactions entre polymorphismes ne pouvaient pas tre impliqu s dans la thrombose veineuse Ceci nous a amen tenter d am liorer la d tection de ph nom nes d interactions par des consid rations statistiques chapitre 7 e Puis nous avons essay de nous limiter certains l ments biologiques nous paraissant plus m me d tre impliqu s dans ce genre de ph nom ne en recherchant les polymorphismes li s aux microARNs qui pourraient affecter l expression de nos g nes chapitre 8 40 3 2 La recherche d interactions pour tenter d expliquer V h ritabilit manquante Les trois prochains chapitres visent introduire les m thodes statistiques chapitres 4 et 5 et les tudes chapitre 6 utilis es lors de ces travaux de recherches 41 42 4 1 4 1 1 Chapitre 4 s statistiques C est un tr s bon test pour nous Olivier Giroud avant match Montpellier PSG 2011 Les trois chapitres pr c dents ont permis de d crire la base de l pid miologie g n tique savoir que pour localiser des g nes ou polymorphismes impliqu s dans un ph notype on recherche des marqueurs pour lesquels les individus similaires pour le ph notype sont aussi similaires pour ces marqueurs Plus sp cifiquement afin de savoir si cette similarit conjointe peut tre attribuable au hasard ou est le reflet d un r el r le dans le
117. as the power of our second stage interaction analysis was about 50 to detect the most significant observed interactions 23 24 There is still no consensus about the most efficiency way to perform a genome wide search for SNP x SNP interaction Some people advocate to restrict the search for interaction to the set of most significant SNPs observed in single locus analysis However in that case which statistical threshold should be used for selecting SNPs with significant marginal associations Nevertheless we further confined our search for interaction to SNPs with statistical evidence for association in univariate analysis as low as p lt 10 3 or p lt 0 05 We did not identify pair wise significant interaction that were homogeneous between EOVT and MARTHA and that satisfied the relevant Bonferroni correction data not shown Others suggest to use external biological information to refine the research strategy Pathway based analysis focusing only on the pairwise interactions between candidate gene SNPs could be such a strategy By focusing only on SNPs mapping the VT candidate genes listing in the Supplementary Table 1 in 6 we did not detect any Bonferroni corrected significant interaction that replicate in the EOVT and MARTHA study data not shown Another possibly could consist in assessing whether the most promising interactive effects could also be observed on quantitative traits known to be associated with the disease Do
118. asc Res 79 581 588 10 PLOS ONE www plosone org miRNA SNPs and Monocyte Gene Expression Gutenberg Health Study SNPs showing the strongest association with P lt 5 107 with gene expression within 1Mb of the associated probe Regression coefficient associated with the rare miSNP allele under an additive effect model adjusted for age and gender P value of the association between miSNP and gene expression P value of the association between miSNP and gene expression adjusted for the best cis eSNP Pairwise r2 between miSNP and best cis eSNPs in GHS The best cis eSNP and the associated miSNP coincide XLSX Table S2 Cis and trans associations observed with the hsa mir 1279 rs14633350 separately in CAD patients and healthy subjects of the Cardiogenics Transcrip tomic Study The rs1463335 was tagged by the rs998022 in CTS The rs146335 is located on chromosome 12 at position 69 667 075 As a consequence the association observed with LYZ and YEATS4 are considered as s associations the remaining eight as trans associations Regression coefficient associated with the rare miSNP allele under an additive effect model adjusted for age and gender P value of the association between miSNP and gene expression DOCX Table S3 Patterns of detected miSNPs x 3utrSNPs interaction separately in CAD and healthy subjects of the Cardiogenics Transcriptomic Study Regression coefficient of the interaction ter
119. ased linkage analyses American journal of human genetics 81 559 75 2007 cf p 63 R Development Core Team R A language and environment for statistical computing R Foundation Statistical Computing 2008 cf p 63 Rane S He M Sayed D et al Downregulation of miR 199a derepresses hypoxia inducible factor lalpha and Sirtuin 1 and recapitulates hypoxia preconditioning in cardiac myocytes Circulation research 104 879 86 2009 cf p 100 Rao C R Information and accuracy attainable in the estimation of statistical parameters Bulletin of the Calcutta Mathematical Society 37 81 91 1945 cf p 59 Ren X P Wu J Wang X et al MicroRNA 320 is involved in the regulation of cardiac ischemia reperfusion injury by targeting heat shock protein 20 Circulation 119 2357 66 2009 cf p 100 Ro S Park C Young D et al Tissue dependent paired expression of miRNAs Nucleic acids research 35 5944 5953 2007 cf p 9 Rosendaal E R Venous thrombosis a multicausal disease Lancet 353 1167 73 1999 cf p 87 Ryan B M Robles A I amp Harris C C Genetic variation in microRNA networks the implications for cancer research Nature reviews Cancer 10 389 402 2010 cf p 99 Sanger F Nicklen S amp Coulson A R DNA sequencing with chain terminating inhibitors Proceedings of the National Academy of Sciences of the United States of America 74 5463 7 1977 cf p 30 Sa
120. aux en plus des ajustements classiques tels que l ge ou le sexe Pour les recherches d associations simples entre les g notypes et la variable expliquer nous avons utilis les m mes types de mod les en prenant soin d exclure le terme d interaction Mod le lin aire ph notype ao a SNP aSNP a3SN P x SNP ajustements Mod le logistique exp ao a SNP amp SNP a SNP x SNP ajustements P malade 1 exp ao a SNP aSNP a3SNP X SNP ajustements o SNP et SNP repr sentent les g notypes cod s 0 1 2 aux locus 1 et 2 respectivement Notons qu il est courant de transformer les param tres du mod le logistique en odds ratios voir encadr pour faciliter leur interpr tation Estimation des param tres Maximum de vraisemblance La technique du maximum de vraisemblance 36 est donc probablement la m thode statistique la plus connue et la plus utilis e pour estimer des param tres d un mod le Comme expliqu pr c demment elle consiste rechercher les valeurs des param tres qui rendent les observations les plus probables possibles d apr s 55 Chapitre 4 Les tests statistiques le mod le suppos Classiquement pour ce faire on tablit la vraisemblance de nos observations d apr s le mod le utilis c est dire la probabilit d apparition de nos observations en fonction des param tres du mod le Puis on recherche les param tres la
121. calculs Sur la recherche de polymorphismes li s aux microARNs et leurs impacts sur l expression des g nes Rappel des r sultats obtenus L encore ce travail est notre connaissance le premier explorer l ensemble des microARNs la recherche de SNP qui seraient en interaction avec d autres SNPs de leurs r gions cibles associ s l expression de certains g nes Il nous a fourni deux r sultats tr s int ressant mais dont les interpr tations doivent donner lieu prudence notamment en ce qui concerne les implications de microARNs dans les associations d tect es Le cluster impliquant le microARN hsa mir 1279 Lanalyse d association simple dans GHS a permis de d tecter un cluster de g nes qui pourraient tre r gul s par le microARN hsa mir 1279 mais diff rentiellement selon lall le pr sent au miSNP rs1463335 Les associations identifi es sont fortes et r pliqu es dans l tude Cardiogenics ce qui a pouss certains de nos collaborateurs en Allemagne a entamer des analyses fonctionnelles sur ce cluster De mon point de vue ces r sultats r v lent tr s probablement la pr sence d un ph nom ne biologique r el important mais l implication du microARN hsa mir 1279 dans ce ph nom ne 117 9 2 2 Chapitre 9 Discussions et perspectives ne me parait pas forc ment vidente En effet le microARN en question se trouve dans la s quence du g ne CPSF6 sous unit d un facteur n cessai
122. ce d ARN messager J compl mentaire a sa r gion seed permettant au complexe Un des deux brins est de d grader l ARN en haut ou TIME rejet du complexe d emp cher sa traduction en prot ine en bas Lorsque I hybridation est partielle l ARN messager n est pas forc ment d grad mais le complexe RISC inhibe sa traduction en prot ine wut ribosome FIGURE 1 5 Processus de maturation et m canisme d action du microARN 1 3 3 Processus de maturation du microARN Depuis quelques ann es notre compr hension de la biogen se des microARNs a beaucoup progress On sait d sormais que les microARNs proviennent de petites g nes non codants situ es soit l ext rieur des g nes codants soit dans leur partie intronique La s quence du microARN est d abord transcrite en pri microARN qui apr s avoir pris la forme d une t te d pingle est coup par le complexe prot ique Microprocessor notamment compos de enzyme Drosha et de la prot ine DGCR8 1 4 1 4 1 1 4 Ce que renferme notre ADN pour former une s quence de nucl otides double brins que l on nomme pre microARN Notons qu il n est pas rare que la s quence du microARN serve en fait la maturation de plusieurs microARNs Dans un tel cas la s quence est transcrite en un seul pri microARN qui est par la suite divis en plusieurs pre microARNSs par l action des prot ines Drosha et DGCR8 Le pre microARN est alors export l ext
123. ces according to sub groups could be a marker for interaction phenomena Using this weighted Bonferroni correction 51 miSNP x 3utrSNP interactions were genome wide significant at p lt 1 02x10 Table 4 Note only 31 would have been declared significant according the standard Bonferroni procedure Table 4 Seventeen of the detected interactions involved the RFPLI rs13053624 that was found to interact with 17 miSNPs over 16 distinct miRNAs to modulate RFPLI expression probe ILMN_1797383 One of these interacting miRNAs was hsa mir 3674 Interestingly according to microSNiPer database 30 RFPLI is predicted to harbor a SNP rs13053817 in a potential target site for hsa mir 3674 that is according to the SNAP database in nearly complete association with the identified 1813053624 r 0 90 No other strong biological and bioinfor matics evidence could be obtained from public databases miRanda 31 TargetScan 5 DianaMicro 32 PicTar 33 mirBase 4 in favour of the 30 other genes we identified through our interaction search Table 4 Replication in CTS The fifty one genome wide significant interactions were tested for replication in CTS However only eight interactions could be replicable which did not include the aforementioned interaction involving RFPLI rs13053624 Using the same linear regression model further adjusted for disease status as for the discovery phase two interactions replicated in CTS at the Bonferroni
124. ch ces donn es avec l volution jour par jour de l avancement de ma th se et de mon taux d heureusit Les r sultats indiquent qu un tr s grand nombre de personnes ont eu une influence positive sur ma th se ou sur ma joie de vivre p 10 1983 Cela inclut tr s probablement la personne qui est en train de lire cet abstract et que je m empresse donc de remercier Entre ao t 2009 et d cembre 2012 j ai pass un peu plus de trois ann es pleines d aventures durant lesquelles j ai norm ment appris tant d un point de vue professionnel que d un point de vue humain Mon taux d heureusit a rarement t au dessous de 13 chelle allant de 18 4 avec 11 comme taux maximal et a tr s souvent t au dessus de 8 voir 14 allant m me jusqu atteindre 11 3 07 reprises De m me l avancement de ma th se a beaucoup fluctu mais n a finalement que rarement recul alors qu il a par moment atteint des rythmes tr s lev s notamment durant les derniers jours J en profite au passage pour tirer un coup de chapeau au cr ateur de l esp ce humaine ou ce que vous voulez notons juste que s ils sont plusieurs la prouesse est un peu moins impressionnante qui a pens aux doctorants en ajoutant une option Allez on ne dort plus pendant deux jours qui marche plut t bien De r centes tudes ont montr que les facteurs humains taient parmi les principales raisons de la variabilit du bonheur et de l volution professio
125. chromosome 12 La l gende de la figure est la m me que celle de la figure 8 12 CTRC LRRFIP1 CNTN6 PCDHA6 TRAF3IP2 NODI ST5 LYZ YEATS4 KRT9 LRRFIP1 0 20 1 00 CNTN6 0 14 0 24 1 00 PCDHA6 0 20 0 45 0 20 1 00 TRAF3IP2 0 13 0 27 0 20 0 27 1 00 NOD1 0 23 0 13 0 05 0 06 0 03 1 00 ST5 0 21 0 52 0 19 0 41 0 27 0 18 1 00 LYZ 0 16 0 14 0 07 0 13 0 17 0 11 0 13 1 00 YEATS4 0 08 0 16 0 11 0 11 0 25 0 07 0 14 0 56 1 00 KRT9 0 22 0 49 0 17 0 40 0 30 0 17 0 74 0 13 0 12 1 00 COPZ2 0 19 0 40 0 13 0 34 0 24 0 14 0 59 0 14 0 09 0 59 FIGURE 8 5 Corr lations entre les g nes du cluster B A LRRFIP1 CNTN6 PCDHA6 TRAF3IP2 NOD1 YZ YEATS4 KRT9 COPZ2 CTRC LRRFIP1 CNTN6 PCDHA6 TRAF3IP2 NOD1 STS LYZ YEATS4 KRT9 COPZ2 FIGURE 8 6 Repr sentation de la corr lations entre les g nes du cluster de LYZ 8 3 4 R plication dans l tude Cardiogenics Nous avons ensuite essay de r pliquer ces r sultats dans l tude Cardiogenics Le miSNP rs1463335 n tant pas inclus dans la puce utilis e pour cette tude nous avons trouv un marqueur qui lui tait corr l r 0 9 le proxy miSNP rs998022 Sa corr lation avec le proxy miSNP de GHS tait par ailleurs de 0 84 La sonde 107 8 4 8 4 1 Chapitre 8 Cap sur la recherche de polymorphismes li s aux microARNs mesurant l expression de LYZ utilis e dans GHS n tait pas non plus pr sente dans Cardiogenics mais toutes les autres associations
126. cide d soxyribonucl ique ADN enroul es de multiples niveaux La structure de chacune de ces mol cules d ADN est identique savoir qu elle consiste en une double h lice compos e de 1 Certains organismes ne sont cependant constitu s que d une seule cellule 2 En r alit il existe des cellules tr s sp cialis es comme les globules rouges qui ont perdu leur noyau 1 1 2 Chapitre 1 Le fonctionnement du vivant deux brins antiparall les et compl mentaires de nucl otides o un nucl otide est lui m me constitu d une base azot e d un sucre et d un groupement phosphate La A AN Mh AK M Mu Mat I hh ill MA HE HE HE UE anan if ou hi 18 19 20 21 22 SE chromosomes chromosomes autosomaux sexuels Source Genome Reference Consortium Assembly GRCh37 p10 FIGURE 1 1 Les 23 paires de chromosomes de notre g nome repr sent es de mani re ce que la taille des chromosomes soit proportionnelle la longueur de leur s quence compl mentarit des deux brins se fait au niveau des bases azot es on parlera alors de paire de bases alors que les groupements phosphates et les sucres permettent l encha nement des nucl otides de ces brins cf figure 1 2 Ses bases azot es contiennent les instructions pour la fabrication des prot ines L ensemble de nos chromosomes sont pr sents par paire un provenant du p re Pautre de la m re En tout nous poss dons deux copies d environ t
127. corrected level of 6 25 x10 Table 5 The first replicated interaction involved the HLA DPB1 rs1042448 and hsa mir 219 1 rsl07822 tagged by the rs3128923 rs213208 and rs3117222 rs439205 pairs in GHS and CTS respectively These two loci are distant from about 100 kb and the corresponding tag SNPs were in modest linkage disequilibrium LD r 0 58 and r 0 56 in GHS and CTS respectively In GHS the haplotype analysis of the rs107822 and rs1042448 proxies revealed that the LA DPBI rs1042448 A proxy allele i e the allele at the proxy SNP that can be used to tag the rs1042448 A allele was associated with a strong increase in HLA DBP1 expression B 0 61 p 1 64x10 1 when carried on the same haplotype as the hsa mir 219 1 rs107822 C proxy allele Figure 1 Conversely when associated with the hsa mir 219 1 rs107822 T proxy allele the increasing effect of the HLA DPB rs1042448 A proxy allele was significantly reduced September 2012 Volume 7 Issue 9 e45863 miRNA SNPs and Monocyte Gene Expression Table 2 Cis and trans associations observed with the hsa mir 1279 rs14633350 Associated Gene Expression GHS CTS Probe Gene CHR Start End p SE PS p SE p LMN_1748730 CTRC 1 15764937 15773152 0 03 0 004 1 39 107 0 06 0 007 1 54 107 ILMN_2252021 LRRFIP1 2 238536223 238690289 0 05 0 004 1 5010 0 12 0 010 6 65 10 7 LMN_1699317 CNTN6 3 1134628 1445277 0 02 0 003 1 16 107 0 04 0 006 7 56 10 2 ILM
128. ct re que l on tudie Types d interactions entre polymorphismes Il existe de nombreuses fa ons selon lesquelles ne serait ce que deux polymorphismes peuvent interagir entre eux y compris des SNPs qui n ont que deux alleles possibles Par exemple consid rons une interaction entre deux SNPs Le premier au locus 1 peut prendre les all les A et T le second au locus 2 les all les C et G Au locus 1 un individu peut donc avoir les g notypes AA AT ou TT et au locus 2 il peut avoir les g notypes CC CG ou GG Il se peut alors que le g notype TT au locus 1 entraine la maladie sauf lorsque le g notype GG au locus 2 est pr sent Mais il se peut aussi qu il entra ne la maladie uniquement lorsque ce g notype GG est pr sent ou encore lorsque c est le g notype CG qui est pr sent En tout il y a 48 types de mod les uniques a p n trance compl te impliquant une interaction 35 Or plus probablement dans les maladies complexes la pr sence d un all le ou de plusieurs all les n est pas responsable de la maladie mais simplement augmente le risque d en tre atteint ce qui augmente consid rablement le nombre de mod les d interactions possibles 52 4 3 Les mod les utilis s et estimation de leurs param tr es M1 M2 M3 M5 M10 M11 M12 M13 000 000 000 000 000 0
129. ctorant facile manager ayant parfois des id es bien arr t es sur ce que je veux faire Je le remercie de m avoir aid mener bien cette th se et d avoir pens moi en voyant Mathieu Kassovitz Fran ois Cambien appara t galement comme une personne essentielle dans la gen se de ma th se en tant que directeur du laboratoire UMRS937 Je le remercie de m avoir accueilli dans son laboratoire Ensuite il y a quatre 1 INSERM UMR S 937 Paris France 2 Universit Pierre et Marie Curie UPMC Paris 6 Paris France 3 Universite Paris Sud Paris 11 Paris France Universit Paris Diderot Paris 7 Paris France Received 18 December 2012 accepted 18 January 2013 published outline 18 February 2013 doi 34 1000 ng 100 NATURE REMERCIEMENTS VOLUME NUMBER 34 FEVRIER 2013 2013 Nature Remerciements Inc All rights reserved autres personnes qui ressortent de mes analyse et qui ont ou plut t vont avoir pour le moment eu un r le important dans l aboutissement de ma th se Il s agit des chercheurs qui ont accept de faire partie de mon jury de th se Merci beaucoup Ga lle Lelandais d abord d avoir accept d tre rapporteur malgr un domaine un peu diff rent du mien quoique l homme a peut tre emprunt un peu d ADN aux levures en mangeant des g teaux ou en buvant de la bi re non Merci ensuite David Cox qui a accept de venir de Lyon pour tre rapporteur de ma th se surtout que a fa
130. d Mase Curie Univesity UPMC Pats 6 Pars France 2 Universite Paris Sud Paris Fanc 3Depatment of Geneal and interventional Caxhobgy University Heart Center Hamburg Hamburg Germany 4 Departments of Medicine 8 Unnes ty Medical Center Johannes Gutenberg Univesity Mainz Maine Germain M Saut N Greliche N Dina C Lambert J C Perret C Cohen W et al 2011 Genetics of venous thrombosis insights from a new genome wide association study PloS one 6 9 OPEN ACCESS Freely available online pLos one Genetics of Venous Thrombosis Insights from a New Genome Wide Association Study Marine Germain No mie Saut Nicolas Greliche Christian Dina Jean Charles Lambert Claire Perret William Cohen Tiphaine Oudot Mellakh Guillemette Antoni Marie Christine Alessi Diana Zelenika Fran ois Cambien Laurence Tiret Marion Bertrand Anne Marie Dupuy Luc Letenneur Mark Lathrop Joseph Emmerich Philippe Amouyel David Alexandre Tr gou t Pierre Emmanuel Morange TINEAM UMA_S 937 CAN incttute Unierst Piere et Marie Curie Pare Park France 2INSERM UMA_S 626 Mancilie France Univent de la M diteman e Masaile France 3 INSERM UMR 915 CNRS ERL3147 Incti du Thom Nantes france 4 INSERM U744 Lile France Nsttut Pasteur de Lille Lile france Universt de Greliche N Germain M Lambert J C Cohen W Bertrand M Dupuis A M Letenneur L et al
131. d Monocyte Gene Expression Gutenberg Health Sudy Cardiogenics Transcriptomic Sudy 4 96 rs107822 proxy C c T T C rs1042448 proxy T A T A T Haplotype Frequencies 0 68 0 09 0 06 0 17 0 67 Cc T T A T A 0 09 0 07 0 17 Figure 1 HLA DPB1 rs1042448 x hsa mir 219 1 rs107822 interaction on HLA DPB7 monocyte expression In the Gutenberg Health Study the rs1042248 rs107822 pair was tagged by rs3128923 rs213208 In the Cardiogenics Transcriptomic Study the corresponding tagging pair was rs3117222 rs439205 doi 10 1371 journal pone 0045863 g001 robustly associated in cs with LYX expression and in trans with CNIN6 CTRC COPZ2 KRT9 LRRFIPI NODI PCDHA6 ST5 and TRAF3IP2 The bioinformatics prediction of the LYZ gene as a target for hsa mir 1279 miRNA supports this hypothesis The lack of strong correlation between the expression of these 10 genes together with the frans association observed after adjusting for LYZ expression could suggest that these nine genes could also be targets for the hsa mir 1279 despite the absence of such prediction by current bioinformatics tools However the observation of positive associations with LY and NODI but of negative associations with the other genes is puzzling as we could have expected at first sight a similar pattern of associations if all these genes were target for hsa mir 1279 Functional experimental work is needed to characterize the role of hsa mir 1279 in the regulation of these genes in d
132. dant pour un nombre probablement bien plus important de prot ines gr ce aux pissages alternatifs Mais au final la partie codante de tous ces g nes ne repr sente qu environ 1 5 du g nome le reste de notre s quence tant compos d introns ce qui est supprim par l pissage de s quences qui codent pour des ARNs non traduits comme les microARNs de s quences participants au recrutement des diff rents acteurs du processus de fabrication et de r gulation des prot ines et enfin d ADN constitu majoritairement de s quences r p titives qui taient il y a peu appel es poubelle mais qui semblent finalement avoir bien des fonctions 118 1 La d finition des versions toil es et non toil es peut parfois tre complexe du fait de rapports d abondance entre miARN et miARN variables entres les tissus 96 1 4 2 1 4 3 Chapitre 1 Le fonctionnement du vivant Les derni res nouvelles du g nome Tr s r cemment en septembre 2012 les chercheurs du projet Encode pour Encyclopedia of DNA Elements dont l objectif est de trouver et d terminer la fonction de tous les l ments fonctionnels du g nome humain ont publi une s rie d articles donnant un meilleur aper u global de notre g nome Lune de leurs d couvertes est qu au dela des s quences codantes pour des prot ines pr s de 80 du g nome humain serait finalement fonctionnel notamment en participant la r gulation diff rentiel
133. de Charlies avec la possibilit qu il n y en ait aucun si par exemple les causes de la maladie sont de nature pig n tique e Le nombre de personnages sur une page ne serait pas de quelques centaines mais de plusieurs centaines de milliers les puces a ADN couramment utilis es permettent en g n ral le g notypage de pr s d un million de polymorphismes 36 3 2 La recherche d interactions pour tenter d expliquer V h ritabilit manquante FIGURE 3 8 O est Charlie l cole une des imitations du c l bre jeu O est Charlie Les habits des diff rents personnages auraient tendance d teindre sur les habits de leurs voisins cause du d s quilibre de liaison e Les vrais Charlies ne seraient pas forc ment eux m me visibles sur le dessin mais cach s par d autres personnages et il faudrait les deviner en devinant les personnages sur lesquels leurs habits auraient d teints les variants causaux ne sont pas forc ment g notyp s e Il se pourrait tout fait que les Charlies se partagent leurs v tements et qu il faille chercher le pantalon un endroit et le pull un autre endroit il est possible qu il y aient des ph nom nes d interactions entre polymorphismes comme nous allons d ailleurs le supposer par la suite e Et pour compliquer l affaire les Charlies ne seraient pas tous habill s parfaitement comme le Charlie de la figure 3 9 et inversement certains autres
134. de la communaut scientifique et enrichissement rapide des bases de donn es de biologie mol culaire comme en t moigne la figure 3 5 De nos jours la technique de s quen age cr e par Sanger est supplant e par le s quen age de nouvelle g n ration commun ment appel next generation sequencing qui acc l re grandement le processus par le s quen age de nombreux fragments d ADN en parall le voir la partie droite de la figure 3 4 Cette next generation sequencing sans oublier 31 Chapitre 3 L pid miologie g n tique l arriv e prochaine de la third generation sequencing 101 permet d sormais de d tecter facilement et rapidement n importe quel type de polymorphisme qu il soit connu ou inconnu et ainsi d avoir a disposition un tr s grand nombre de marqueurs Ces technologies en assurant en th orie le s quen age des variants causaux tendent aussi rendre inutile le raisonnement en terme de marqueurs g n tiques miRBase Nombre de microARNs PDB Nombre de structures dbSNP Nombre de SNPs humains Genbank 150 milliards Nombre de paires de bases 2000 2005 2010 Sources miRBase http www mirbase org PDB http www rcsb org pdb dbSNP http www ncbi nlm nih gov projects SNP DDBJ http www ddbj nig ac jp FIGURE 3 5 Evolution des quantit s de donn es int gr es dans quatre des plus importantes bases de donn es de biologie m
135. des microARNs n est pas exclure mais d un point de vue statistique on pourrait se demander quelles taient les chances que les deux associations d tect es et l on pourrait rajouter les associations du cluster impliquent des miSNPs proches des g nes impact s Analyse et perspectives ouvertes par nos travaux Je pense qu il est important aussi d avoir un regard critique de notre d marche afin d avoir des pistes de travail pour de possibles am liorations La puce utilis e D abord la puce ADN utilis e dans ce travail tait une puce classique d analyse de SNPs sur le g nome Ce type de puces n est pas forc ment adapt l identification de miSNPs Il existe maintenant des puces sp cifiquement d di es aux identifications de variations dans les microARNs Il est probable que de telles puces pourraient nous fournir nombre de nouveaux polymorphismes potentiellement impliqu s dans l expression des g nes et notamment des polymorphismes situ s dans les s quences seed et mature des microARNs plus 118 9 2 Sur la recherche de polymorphismes li s aux microARNs et leurs impacts sur l expression des g nes m me d avoir des impacts en interaction avec des polymorphismes dans leurs s quences cibles L identification des miSNPs Du fait de l absence de base de donn es de pri microARNs nous avons assimil comme tant des miSNPs tous les SNPs situ s 200 bases d un microARN Il est probabl
136. drik Sager Jennifer Sambrook Gerd Schmitz Michael Scholz Laura Schroeder Jonathan Stephens Ann Christine Syvannen Stefanie Tenn stedt formerlyGulde Chris Wallace Department of Haematology University of Cambridge Long Road Cambridge CB2 2PT UK and National Health Service Blood and Transplant Cambridge Centre Long Road Cam bridge CB2 2PT UK Medizinische Klinik 2 Universitat zu L beck L beck Germany Department of Cardiovascular Sciences University of Leicester Glenfield Hospital Groby Road Leicester LE3 9QP UK INSERM UMRS 937 Pierre and Marie Curie University UPMC Paris 6 and Medical School 91 Bd de l H pital 75013 Paris France Juvenile Diabetes Research Foundation Wellcome Trust Diabetes and Inflammation Laboratory Department of Medical Genetics Cambridge Institute for Medical Research University of Cambridge Wellcome Trust MRC Building Cambridge CB2 OXY UK The Wellcome Trust Sanger Institute Wellcome Trust Genome Campus Hinxton Cambridge CB10 1SA UK Klinik und Poliklinik fir Innere Medizin I Universitat Regensburg Germany Molecular Medicine Department of Medical Sciences Uppsala University Uppsala Sweden Trium Analysis Online GmbH Hohenlindenerstr 1 81677 Miinchen Germany European Bioinformatics Institute Wellcome Trust Genome Campus Hinxton Cambridge CB10 1SD UK Institut f r KlinischeChemie und Laboratoriums medizin Universitat Re
137. du public 163 Chapitre 9 Epilogue R fl xions Ces volutions peuvent pousser certains se poser des questions Compte tenu des avanc es technologiques prodigieuses en mati re de s quencage cf figure 9 2 et en extrapolant les avanc es de nos connaissances sur le g nome humain il n est pas inconcevable que dans quelques dizaines d ann es nous soyons en mesure d avoir des informations sur une personne mais aussi sur sa famille et sa descendance que ces derniers pr f reraient garder secret Peut tre cependant que nous ne seront pas capables de tirer beaucoup plus d informations des donn es de g notype que nous le pouvons actuellement que les risques de d rives ne sont pas si importants que certains peuvent le penser et que la soci t s adaptera la diffusion publique de ces nouvelles informations tr s personnelles Lavenir nous le dira Evolution du cotit de s quencage d un g nome humain en milliers d euros echelle logarithmique 100 000 4 First generation sequencing Fin du projet g nome humain 1000 ye Lancement du projet 1000 g nomes 10 000 Next generation sequencing 100 Third generation sequencing 10 T T T T 1 2002 2004 2006 2008 2010 2012 Source NHGRI Large Scale Genome Sequencing Program http www genome gov sequencingcosts FIGURE 9 2 Evolution du co t du s quencage humain L chelle de co t y est logarithmique
138. e avoir des effets qui s ajoutent donc 1 Le transcriptome est l ensemble des ARN messagers qui sont exprim s dans un type cellulaire 50 4 3 Les mod les utilis s et Pestimation de leurs param tres additifs D autre part contrairement un codage en 0 1 1 un codage additif fait bien la diff rence entre avoir aucune ou une version d un all le codage 0 ou 1 et avoir deux versions d un all le codage 2 Inversement le codage additif diff rencie aussi l absence codage 0 et la pr sence d un all le codage 1 ou 2 au contraire d un codage en 0 0 1 Ainsi le codage additif permet galement dans une moindre mesure de d tecter des effets r cessif et dominants cf figure 4 5 Probabilit d avoir la maladie a 3 OR 20 1 nr Le Cd 7 7 5 Se ik S A 5 IS Le 4 x IS Te v 5 n e 7 2 2 O1 Nombre de copies 0 1 2 de l all le T AA AD TT FIGURE 4 5 Un codage en 0 1 2 peut d tecter les diff rences qu il peut y avoir les individus AA et les individus AT ou TT effet dominant Il peut galement d tecter les diff rences entre individus g notyp s AA ou AT et ceux g notyp s TT effet r cessif Les ajustements Lorsqu un mod le est loign de la r alit les valeurs des param tres qui sont les plus en accord avec les observations tendront tre celles qui annulent les liens d crits par le mod le Aussi si l on conna t d
139. e CODDIM and the Genomic Network of the Pierre and Marie Curie University Paris 06 The funders had no role in study design data collection and analysis decision to publish or preparation of the manuscript Competing Interests The authors have the following interests Part of the Gutenberg Health Study is funded by its contract with Boehringer Ingelheim and PHILIPS Medical Systems including an unrestricted grant for the Gutenberg Health Study There are no patents products in development or marketed products to declare This does not alter the authors adherence to all the PLoS ONE policies on sharing data and materials as detailed online in the guide for authors E mail david tregouet upmc fr a Current address College London Hammersmith Hospital London United Kingdom 4 Membership of the Cardiogenics Consortium is provided in the Acknowledgments Introduction inhibit mRNA translation either via mRNA degradation or via repression of mRNA translation 1 A complete or nearly complete match of the miRNA with its target sequence generally results in a decrease of gene expression while a mismatch lead to a repression of mRNA translation In general miRNAs participate in regulating the expression of genes located remote from their MicroRNAs miRNAs represent a class of small 19 29 nucleotides non coding RNAs that participate in gene post transcriptional regulation By binding to complementary target sites that are mainly l
140. e 26 87 ans et atteints du syndrome coronaire aigu tel que d fini par la Soci t Europ enne de Cardiologie Leur recrutement s est effectu parmi les patients coronariens des h pitaux de Leicester L beck Paris et Regensburg Le second chantillon est compos de 403 sujets sains recrut s Cambridge parmi les donneurs de sang volontaires en s assurant d une distribution d ges similaire l chantillon des cas 47 103 Plusieurs dizaines d informations et de mesures biologiques ont t collect es pour 1 Les monocytes sont des globules blancs qui voluent en macrophages pour participer la destruction des d bris cellulaires et des agents infectieux 82 6 2 Les tudes GHS et Cardiogenics chaque individu Chaque sujet a t g notyp pour environ 600 000 SNPs l aide d une des deux puces ADN suivantes la puce Illumina Sentrix Human Custom 1 2M et la puce Human 610 quad Enfin la mesure d expression d environ 18 000 genes sur les cellules du monocyte et du macrophage ont t r alis es en utilisant les 24 516 sondes incluses dans la puce a ARN Illumina Ref8 v3 Lors de mon travail de th se j ai utilis uniquement les donn es des individus d origine europ enne et pour lesquels les donn es de g notypage et d expression dans le monocyte taient disponibles savoir 363 sujets coronariens et 395 sujets sains Crit res de qualit des sondes et SNPs Le filtrage de
141. e ann e Elle consiste comme on peut le voir sur la figure 7 1 en la formation de caillots sanguins dans les veines On distingue la thrombose veineuse 1 Les veines sont les vaisseaux transportant le sang des organes vers le coeur au contraire des art res qui am nent le sang du coeur vers les organes 85 7 1 2 7 1 3 Chapitre 7 la recherche de ph nom nes d interactions dans la maladie thromboembolique veineuse profonde de embolie pulmonaire sa principale complication qui survient lorsque les caillots de sang migrent vers les poumons Lembolie pulmonaire est caract ris e par un taux de mortalit un an d environ 10 lorsque Pon exclut les individus pr sentant des sympt mes pour d autres pathologies 129 veine art re embolie pulmonaire embolie caillot de sang thrombose FIGURE 7 1 1 les veines transportent le sang des organes vers le coeur les art res du coeur vers les organes 2 la thrombose veineuse consiste en l apparition d un caillot sanguin qui s il se d tache de la paroi cr e ce que Pon appelle une embolie 3 Pembolie pulmonaire survient lorsqu un caillot de sang atteint et obstrue l art re pulmonaire Facteurs de risque Lage les longues immobilisations ainsi que la pr sence de diverses autres anomalies biologiques ou pathologiques sont les principaux facteurs de risque av r s de la maladie et comme pour la plupart des maladies complexes
142. e base sur les carts relatifs entre les effectifs observ s et attendus _ f2 2 _ _ 2 _ 1 2 2 n ue 1 Oe 2f 1 f Ylaa 19 a 2f 1 f a f o n est le nombre d individus et f AA f Aa f aa sont les fr quences observ es de chacun des ph notypes Les valeurs de la statistique pour les SNPs qui ne sont pas l quilibre d Hardy Weinberg devraient tre plus lev es que pour ceux qui sont a l quilibre La distribution de la statistique sous HO Karl Pearson montra que sous l hypoth se HO cette statistique suit asymptotiquement on n est donc pas dans le cas pr c dent d une distribution exacte une distribution du y 1 degr de libert on enl ve 2 degr s de libert cette somme de 3 termes du fait de l utilisation dans la distribution th orique de la fr quence observ e f de l all le A en plus du nombre n d individus 89 Ce r sultat se base sur des approximations similaire au th or me central limite Le graphique 4 8 montre la distribution d une telle statistique Lorsque le nombre d observations est important ce qui est notre cas avec des effectifs de plusieurs centaines d individus la distribution du y 1 degr de libert est une tr s bonne approximation de la distribution de H FIGURE 4 8 Loi de distribution du y 1 degr de libert 62 4 5 Quelques tests qui ne sont pas bas s sur des mod les Logiciels de travail Pour la gr
143. e que la connaissance pr cise des s quences des pri microARNs pourrait tre b n fique a notre travail Lidentification des 3utrSNPs De m me nous avons d clar s 3utrSNPs tous les SNPs situ s dans les r gions 3 UTR de g nes pour lesquels nous avions une donn e d expression Bien que les algorithmes de pr diction de cible de microARNs ne soient pas forc ment parfaits ils permettent cependant de d tecter les r gions le plus a m me d tre des sites de fixation pour microARNs et nous pourrions stirement tirer b n fice de leur utilisation Par exemple nous pourrions pond rer nos r sultats par certains scores de pr diction de cible de microARNs Nous pourrions aussi imaginer d autres types de pond rations outre celle par la p value de L v ne d j effectu e Il est aussi connu que les microARNs ciblent en priorit des s quences d ARN messager situ s dans leur r gion 3 UTR mais qu ils peuvent aussi cibler des s quences de leurs r gions 5 UTR ou des ORFs 1 Nous pourrions donc galement explorer ces r gions Ph notype d int r t Une autre r flexion que l on pourrait mener dans le cadre de notre travail serait de se demander si les expressions des g nes sont bien le bon ph notype tudier pour observer des associations avec des polymorphismes situ s dans les s quences des microARNs En effet les microARNs r gulent les g nes apr s la transcription et le d bat de savoir s ils ne font que r
144. ene CHR Probe 3utrSNP miRNA CHR miSNP miProxy 3utrProxy P P value weighted P RFPL1 22 ILMN_1797383 rs13053624 hsa mir 592 7 rs11563750 rs11563505 rs13053817 1 04 10 3 22107 1 50 10 RFPL1 22 ILMN_1797383 rs13053624 hsa mir 3920 11 rs12275715 rs12283329 rs13053817 1 21 10 3 22 107 1 74 1077 TXNDC5 6 LMN_1769082 rs8643 hsa mir 125b 2 21 rs2823897 rs2211981 rs8643 8 95 10 3 39107 1 23 10 TXNDC5 6 ILMN_1769082 rs1043784 hsa mir 125b 2 21 rs2823897 rs2211981 rs3734589 1 26 10 3 18107 1 64 10 LYZ 12 ILMN 1815205 rs710794 hsa mir 1279 12 rs1463335 rs317657 rs710794 413107 4 51107 1 20 10 ASB1 2 ILMN_1683096 rs1044561 hsa mir 125b 2 21 rs2823897 rs2211981 rs2334004 1 45 10 8 91 10 1 87 107 RFPL1 22 LMN_1797383 rs13053624 hsa mir 4656 7 rs3750013 rs17135110 rs13053817 2 28 10 3 22 10 3 29 107 ASB1 2 ILMN_1683096 rs2278768 hsa mir 3119 1 1 rs17349873 rs1330387 rs2278768 3 71 10 1 341076 4 10107 RFPL1 22 LMN_1797383 rs13053624 hsa mir 30c 1 1 rs16827546 rs16827546 rs13053817 2 89 107 3 2210 4 16 107 ECE1 1 ILMN_1672174 rs3026907 hsa mir 1307 10 rs7911488 rs2271751 rs9287035 2 98 10 3 9 07 10 4 29 10 RFPL1 22 LMN_1797383 rs13053624 hsa mir 125b 1 11 rs2081443 rs2081443 rs13053817 2 40 107 3 22107 3 47 107 PKD1L2 16 ILMN 1742788 rs1901818 hsa mir 4272 3 rs9868022 rs9868022 rs7198127 8 92 10 8 80 10 5 47 10 4 ECE1 1 LMN_1672174 rs3026907 hsa mir 4670 9 rs2104533 rs2296666 rs9287035
145. enseign s ceci afin d am liorer la pertinence des r sultats 100 8 2 Identification des polymorphismes aux cardiopathie cong nitale 135 et coronarienne 139 Le SNP rs4846049 dans le g ne MTHFR fut galement trouv associ au risque de cardiopathie coronarienne possiblement par le biais d une modification d un site de fixation de microARN et en particulier de hsa mir 149 134 Enfin plusieurs polymorphismes situ s dans des r gions de fixations pour microARNs sur des g nes du syst me r nine angiotensine aldost rone RAAS semblent associ s des maladies cardiovasculaires En particulier certains SNPs communs semblent influencer la pression art rielle et le risque d infarctus 86 alors que le SNP rs5186 situ dans un site de fixation du g ne AGTRI serait associ avec l ataxie de Friedreich 59 Tous ces l ments sugg rent que les variations situ es dans les diff rentes s quences associ es aux microARNs ou dans celles de leurs cibles pourraient seules ou en interaction avoir un r le important dans les variations d expression des g nes des tissus cardiovasculaires notre connaissance tr s peu d tudes ont consist la recherche sur l ensemble du g nome de tels polymorphismes et c est ce que nous avons tent de faire dans ce chapitre avec les donn es des tudes GHS et Cardiogenics 8 1 5 Strat gie de recherche e Dans un premier temps j ai identifi sur la puce ADN util
146. ention semble s tre r cemment tourn e vers le lien entre les microARNs et les maladies cardiovasculaires Une simple recherche des mots cl s MicroRNAs et Cardiovascular Diseases dans la base 99 8 1 2 8 1 3 8 1 4 Chapitre 8 Cap sur la recherche de polymorphismes li s aux microARNs de donn es PubMed 160 par le moteur de recherche GoPubMed 31 149 m a donn au moment o j crivais ce document 1 260 r sultats dont 1 018 provenant d articles publi s lors des trois derni res ann es Il semble que de nombreux microARNSs soient exprim s et jouent un r le dans le bon fonctionnement des tissus du syst me cardiovasculaire 22 Plusieurs articles rapportent leur implication dans les maladies cardiovasculaires 109 comme l hypertrophie ventriculaire miR 1 miR 133a 50 l infarctus du myocarde miR 1 miR 133a miR 133b miR 208 15 mir 199a 93 miR 320 95 la fibrose cardiaque miR 21 21 miR 29 122 ou le trouble du rythme cardiaque miR 1 136 La faute aux SNPs Il semble d sormais acquis qu un SNP li un microARN peut affecter un ph notype Cela fut montr pour la premi re fois en 2005 o un SNP situ dans un site de fixation pour le microARN hsa miR 189 dans le g ne SLITRK1 fut trouv associ au syndrome de Tourette 2 Depuis de nombreux autres SNPs li s a des microARNs ont t rapport s comme associ s des maladies En particuliers des polymorphism
147. entre les miSNPs c est dire les SNPs ou les marqueurs des SNPs situ s dans ou moins de 200 bases d un pre microARN et les expressions des sondes de la puce a ARN avec comme hypoth se un lien lin aire et additif entre le miSNP et l expression de la sonde voir chapitre 4 Il en a r sult 294 miSNPs x 22 004 sondes 6 469 176 tests qui ne sont en fait qu un sous ensemble des r sultats d association g nome entier d ja publi s par ailleurs 138 Etant donn le nombre important de tests m me en absence totale d association entre les miSNPs et l expression des g nes on s attendrait trouver par chance des p values relativement faibles voir chapitre 5 C est pourquoi nous avons appliqu une correction pour tests multiples en l occurrence la correction de Bonferroni Nous avons d clar significatifs les tests ayant des p values inf rieures 0 05 6469176 7 73 x 107 De nombreuses associations significatives apr s correction de Bonferroni Il r sulte de cette analyse 57 associations significatives au seuil de Bonferroni voir figure 8 2 Cependant les interpr tations de 48 d entre elles paraissent relativement d licates car les proxy miSNPs impliqu s dans ces associations sont localis s dans des r gions proches des g nes avec lesquels ils semblent associ s On peut alors facilement imaginer une association dite en cis voir encadr o le SNP responsable de l association se trouve dans u
148. epth in particular TRAF31P2 as this gene was identified in two independent GWAS as a susceptibility locus for psoriasis 40 41 Our results if confirmed could open therapeu tics perspectives as it is possible to use artificial miRNA targets to modify gene expression 42 43 A tans association pattern was also recently observed at the locus 12q15 using an unsupervised 5 2 50 5 11 4 8 4 6 44 4 2 4 0 rs5750504 proxy T J A A T rs1894644 proxy Cc T C T Cc Haplotype Frequencies 0 54 0 06 0 32 0 08 0 52 0 gene networks analysis of the same datasets 24 The rs11177644 located in the 3 UTR region of the YEATS4 gene was also found associated in cis to LYZ and YEATS4 and in trans with a module of 36 genes including the CVIN6 CTRC COPZ2 KRT9 LRRFIPI NODI and ST5 discussed above However unlike what we observed here with hsa mir 1279 rs1463335 the trans associations with rs11177644 had been found mediated by cis regulation mechanisms Using a standard linear regression analysis see above we then tested whether these two SNPs could interact to contribute to the identified trans associations We did not observe any strong evidence for such phenomenon as the lowest p value for interaction was p 8 5310 for PCDHAG data not shown As the rs1 1177644 and rs1463335 were in moderate LD r 0 30 and D 0 70 we further conducted an haplotype analysis of the two SNPs Table 6 This revealed that both SNPs acted additively
149. er par Frans Alfons Janssens en 1909 55 Thomas Hunt Morgan put d velopper une correspondance entre la fr quence de crossing over entre deux caract res et leur distance sur un chromosome 82 Ceci rendit alors possible la cr ation de la premi re carte g n tique compos e de six marqueurs par Alfred Sturtevant en 1913 116 Cette carte g n tique est pr sent e en figure 3 1 Yeux osines O orps jaune Yeux blancs C Yeux vermillons Ailes miniatures Ailes rudimentaires Xoy Neg Location sur le Be PR M chromosome X 99 1 0 30 7 33 7 57 6 Source adapt de la carte originale de Sturtevant FIGURE 3 1 Carte g n tique du chromosome X de la mouche drosophile r alis e par Sturtevant C est la premi re carte g n tique r alis e Sturtevant y positionna six g nes qu il nomma B C O P R et M Le g ne O semblant compl tement li au g ne C les g nes C et O sont situ s au m me endroit Les techniques d ing nierie g n tique La localisation des r gions chromosomiques susceptibles d influencer certains caract res h r ditaires devint ainsi possible gr ce aux travaux de Morgan Cependant pour tre efficace la technique de Morgan n cessite que l on dispose de marqueurs relativement proches des g nes impliqu s dans le trait tudi On peut s assurer d avoir ce genre de marqueurs en augmentant la densit de marqueurs sur le g nome mais ceci n cessite l identification de nombreux
150. es 4 4 Distribution de la statistique 4 5 Quelques tests qui ne sont pas bas s sur des mod les La gestion des tests multiples 5 1 Les corrections pour tests multiples 5 2 Comment augmenter la puissance de d tection d un test Les donn es pid miologiques utilis es 6 1 Les tudes EOVT et MARTHA 6 2 Les tudes GHS et Cardiogenics ON He m 13 13 14 18 25 25 34 43 43 45 47 58 60 65 66 70 77 77 81 xvii Table des mati res 7 A la recherche de ph nom nes d interactions dans la maladie thromboembolique veineuse 85 7 1 Motivations et strat gie de recherche 85 7 2 Une puissance trop faible dans EOVT 88 7 3 Associations dans l tude MARTHA m ta analyse 91 7 4 Associations avec certains biomarqueurs de la maladie 93 7 5 Pond rations et combinaisons 94 8 Cap sur la recherche de polymorphismes li s aux microARNs 99 8 1 Motivations et strat gie de recherche 99 8 2 Identification des polymorphismes 101 8 3 L association de ces SNPs sur expression des g nes 103 8 4 Recherche d interactions SNP SNP impliqu es dans la variabilit de Texpression d s Genes oa us S24 pats Belek ome yee seca ety dre 108 9 Discussions et per
151. es 83 Une autre solution serait d effectuer une s lection sur les tests pour ne garder que ceux qui ne sont pas trop corr l s entre eux C est l approche que j ai utilis e dans le chapitre 7 76 6 1 Chapitre 6 miologiques utilis es Dilbert Studies have shown that accurate numbers aren t any more useful than the ones you make up Boss How many studies showed that Dilbert Eighty seven Dilbert http www dilbert com En abordant les tests statistiques et la gestion des tests multiples j ai pu dans les deux derniers chapitres pr senter les m thodes statistiques que j ai utilis es pour effectuer mes recherches de ph nom nes d interactions Dans ce chapitre je pr sente les donn es pid miologiques sur lesquelles j ai appliqu ces m thodes savoir les donn es de quatre tudes diff rentes l Early Onset Venous Thrombosis EOVT et l tude MARTHA d une part et la Gutenberg Health Study GHS et l tude Cardiogenics d autre part Les tudes EOVT et MARTHA Les tudes EOVT et MARTHA ont pour objectif de d couvrir de nouveaux facteurs de risque de thrombose veineuse Je les ai utilis es dans le cadre de mes recherches de ph nom nes d interactions entre polymorphismes pouvant affecter l apparition de la maladie thrombo embolique veineuse voir chapitre 7 77 6 1 1 6 1 2 Chapitre 6 Les donn es pid miologiques utilis es LEarly Onset Venous
152. es avant de pouvoir les analyser pour finalement en tirer les principaux r sultats que je viens de vous exposer De part la nature du travail il m a bien entendu t impossible de d l guer ces remerciements si bien que j esp re que le lecteur m excusera d avoir quelque peu b cl le reste de ce document faute de temps ACKNOWLEDGMENTS Comme le but de ce papier n est pas de pratiquer une inception je vais viter de remplir cette partie pour ne pas risquer de me perdre dans les limbes des remerciements Je remercierai simplement Jean Bouyer et Audrey Bourgeois que je n ai pas pu remercier auparavant COMPETING FINANCIAL INTERESTS L auteur d clare ne pas trop savoir comment il pourrait avoir des conflits d int r ts avec cette publication Il pr cise aussi qu il ne le dirait de toute fa on pas s il en avait Published outline at home Reprints are granted Nicolas Greliche Tous les gens sont gentils 2008 2 Nicolas Greliche Il y a peut tre des gens qui sont un peu moins gentils mais ils ont leurs raisons 2010 3 Guillemette Antoni Identification de facteurs g n tiques modulant deux ph notypes interm diaires de la maladie thrombo embolique veineuse les taux de facteurs VIII et von Willebrand Int r t de l utilisation de diff rentes approches de recherche pang nomique 2012 4 Rapha le Castagn Expression des g nes du chromosome X chez l homme approche int gr e par g nomique et transcri
153. es li s a certains microARNs miR 196 a2 miR 146a miR 27a ont t identifi s a plusieurs reprises avec de hauts niveau de significativit 108 comme associ s a certains cancers M canisme d action Ces SNPs peuvent se situer dans un site de fixation de microARN le plus souvent une r gion 3 UTR d un ARN messager mais aussi dans la s quence d un microARN mature d un pr microARN 106 ou d un pri microARN 133 en affectant la stabilit l efficacit ou la maturation du microARN 32 Lorsqu un SNP se situe dans la s quence d un microARN mature ou dans une de ces cibles potentielles il a en g n ral pour effet d alt rer la fixation du microARN sur la cible mais il peut aussi arriver qu il ait pour effet la cr ation d un nouveau site de fixation 18 Des exemples dans les maladies cardiovasculaires Des SNPs li s a des microARNs ont aussi t rapport s comme associ s a des maladies cardiovasculaires Un SNP rare situ dans la s quence du microARN hsa mir 499 semble par exemple alt rer le fonctionnement de certains organes cardiaques 33 D autres polymorphismes rs11614913 et rs3746444 situ s dans les microARNSs hsa mir 196a2 et hsa mir 499 respectivement ont t trouv s associ s 1 GoPubMed questionne la base de donn es de publications biologiques et m dicales PubMed et propose notamment l utilisateur des termes de nomenclatures en fonction des mots cl s qu il a r
154. es proposent le g notypage personnel par envoi de Kit de r cup ration de salive La plupart de ces soci t s fournissent en m me 161 Chapitre 9 Epilogue temps une interpr tation des donn es afin d informer les individus sur leur g n alogie ou certains de leurs risques m dicaux Par exemple 23andMe la compagnie leader dans la g nomique personnelle aurait d ja g notyp plus de 180 000 personnes son offre consistant actuellement a un g notypage de plus de 900 000 variants et leur interpr tation par la puce ADN Illumina HumanOmniExpress pour 299 141 Certains outils comme Promethease associ a SNPedia permettent galement aux personnes ayant d ja leurs donn es de les interpr ter gratuitement 159 Apparition de nombreux produits d riv s Surfant sur cet engouement grandissant pour la g nomique personnelle certaines entreprises offrent aussi des services moins scientifiques tels que GenePartner proposant une aide la recherche du partenaire g notypiquement id al 147 Warrior Roots qui propose chacun de d couvrir ses anc tres guerriers et son potentiel athl tique 162 Your DNA Song ou lapplication pour iPhone GeneGroove qui cr ent une musique personnelle partir d ADN 146 163 ou DNA 11 qui propose ses clients des tableaux artistiques personnalis s partir leur propre ADN 144 cf figure 9 1 Gene Partner oe Source GenePartner http www genepartner com So
155. est es dans MARTHA en prenant soin d utiliser des proxySNPs lorsque les SNPs de EOVT n taient pas disponibles dans MARTHA e Nous avons alors recherch des associations entre les interactions ressortant le plus de notre analyse et les biomarqueurs mesur s dans l tude MARTHA e Enfin nous avons essay diverses m thodes de pond rations pour tenter d augmenter notre puissance de d tection d interactions 87 Chapitre 7 A la recherche de ph nom nes d interactions dans la maladie thromboembolique veineuse 268 356 SNPs R duction du nombre de SNPs pour limiter le d s quilibre de liaison EOVT 243 189 SNPs Risque de thrombose Recherche d associations entre des veineuse interaction SNP SNP et la thombose veineuse 29 570 566 455 tests S lection des interactions ayant des p values lt 10 2 126 084 tests EOVT et MARTHA M ta analyse EOVT MARTHA Risque de thrombose S lection des interactions veineuse ayant des p values lt 10 41 interactions potentiellement interessantes Recherche d association avec les 9 biomarqueurs de MARTHA MARTHA Biomarqueurs de la thrombose veineuse Conservation des tests significatifs 369 tests 1 association rs9804128 rs4784379 sur facteur VIII FIGURE 7 2 Strat gie de recherche d interactions SNP SNP associ es avec la thrombose veineuse 7 2 Une puissance trop faible dans EOVT Apr s correction de Bonferroni aucun des 30 milliards de tests effectu
156. ests qui ne seraient pas ressortis cause d une correction trop stringente est la pond ration La pond ration consiste donner une certaine priorit certains tests par rapport d autres Lorsque l on dispose des p values de n test et que l on attribue chacun des tests i un poids w alors les p values pond r es deviennent p value x iw p value nw o n est le nombre de tests effectu s L interpr tation est alors la m me que pour les p values originales car les nouvelles p values ont le m me seuil que les anciennes Ce qui change c est l ordre d importance des tests Le choix des pond rations se fait en fonction de crit res du m me ordre que ceux utilis s pour effectuer les s lections des tests D ailleurs la m thode de s lection est 74 5 2 4 5 2 Comment augmenter la puissance de d tection d un test un cas particulier de la m thode de pond ration o la pond ration est la m me pour tous les tests s lectionn s et est nulle pour les autres On peut imaginer de tr s nombreuses fa ons de pond rer les tests de mani re faire ressortir certaines hypoth ses dans lesquelles on a plus confiance Il faut cependant faire attention utiliser des pond rations qui reposent sur de l information ind pendante des donn es afin de pouvoir garder les m mes risques d erreurs qu avant pond ration Dans ce travail de th se j ai utilis divers types de pond ration
157. eut que lorsqu un test est significatif on suspecte certains autres tests d avoir de bonnes chances d tre aussi significatifs Par exemple si un SNP d un g ne est associ a un ph notype il nous para t relativement probable que d autres SNPs du g ne puissent l tre galement Dans une telle situation il peut tre une bonne id e de combiner les tests en question Comment combiner des tests On peut combiner des tests de la m me fa on que l on peut combiner des observations Cependant en r gle g n ral on ne voudra pas combiner un grand nombre de tests ensemble et l on ne pourra ainsi pas utiliser les th or mes asymptotiques tels que le th or me central limite Aussi on aura le choix entre effectuer des permutations pour estimer la distribution de la statistique construite ou trouver une statistique dont nous connaissons la distribution sous HO Lun des avantages que l on a lorsque l on combine des tests par rapport combiner des observations est que nous connaissons la distribution de la p value du test sous HO Cela nous permet de conna tre la distribution exacte de certaines combinaisons de tests Distribution de la p value Rappelons la d finition de la p value c est la probabilit d observer sous HO une statistique plus extr me que celle que l on a calcul sur nos donn es Supposons que l on ait bien choisi notre statistique de test et que l on soit sous H1 Alors une stati
158. fferences between organisms Bioinformatics Oxford England 22 1359 66 2006 cf p 16 Levene H Contributions to Probability and Statistics Essays in Honor of Harold Hotelling Robust tests for equality of variances 278 292 Stanford Univ Press Palo Alto CA 1960 cf p 45 61 Lewis B P Burge C B amp Bartel D P Conserved seed pairing often flanked by adenosines indicates that thousands of human genes are microRNA targets Cell 120 15 20 2005 cf p 7 Lewontin R C The Interaction of Selection and Linkage I General Considerations Heterotic Models Genetics 49 49 67 1964 cf p 23 Li J Harris R A Cheung S W et al Genomic hypomethylation in the human germline associates with selective structural mutability in the human genome PLoS genetics 8 e1002692 2012 cf p 14 Lu M Zhang Q Deng M et al An analysis of human microRNA and disease associations PloS one 3 e3420 2008 cf p 99 Lunetta K L Hayward L B Segal J et al Screening large scale association study data exploiting interactions using random forests BMC genetics 5 32 2004 cf p 54 Manolio T A Collins E S Cox N J et al Finding the missing heritability of complex diseases Nature 461 747 53 2009 cf p 36 39 Articles livres th ses 76 77 78 79 80 81 82 83 84 85 86 87 88 Maragkakis M Reczko M Simossis V A et al
159. g from the interplay between environmental and genetic factors that could interact with each other to modulate VT risk 2 3 The recent Genome Wide Association Studies GWAS strategy brought great hopes to identify novel susceptibility loci to human diseases and some true successes were obtained in the field of VT genetics Novel genes recently identified to harbor common susceptibility alleles i e with allele frequency gt 0 05 for VT include GP6 HIVEP1 KNG1 STAB2 STXBP5 and VWF reviewed in 4 However none of the identified risk alleles demonstrated genetic effects stronger than those of the established VT associated genes known before the GWAS era ABO F2 F5 and FGG 5 As for most multifactorial diseases risk alleles for VT identified so far only explain a small proportion of the familial risk of disease 6 Alternative strategies are needed to identify the army sources that could contribute to the unexplained heritability and these include gene gene and gene environment interactions deep sequencing transcriptomic analyses and epigenomics 7 10 In this work we were interested in assessing whether interaction between common polymorphisms could contribute to VT risk To our knowledge studies that have investigated this hypothesis were mainly dedicated to known candidate genes 11 12 and no attempt has been made to address it without any a priori hypothesis This is why we here take advantage of the large amoun
160. g to the SNAP database 20 was used The same logistic regression model was applied in the MARTHA study Results obtained in the two GWAS were then meta analyzed through a fixed effect model relying on the inverse variance weighting as implemented in the METAL software http www sph umich edu csg abecasis metal Homogeneity of associations across the two GWAS studies was tested using the Mantel Haenszel method 21 The most significant interactions were then further assessed in relation to quantitative biomarkers of VT risk in MARTHA patients For this standard linear regression analyses were conducted with the same additive allele coding as for the binary trait analysis Analyses were adjusted for age sex and ABO blood group For AT PC PS and ACV individuals under anticoagulant were excluded The THESIAS software 22 was used to illustrate the detected pairwise SNP interactions Results and discussion We first applied a pairwise tagging approach to discard redundant SNPs using a r2 threshold of 0 90 that led to the final selection of 243 189 SNPs from the EOVT study 2 96 1010 pairwise SNPs interactions were then tested in EOVT but none of them reached the Bonferroni corrected p value of 1 69 10 12 Nevertheless all interactions with p value less than 10 4 n 2 126 084 were further assessed in MARTHA The smallest observed p value was 6 73 10 7 but it did not pass the Bonferroni correction p lt 2 35 10 8 for the nu
161. gensburg D 93053 Regensburg Germany Supporting Information Table SI Genome wide significant p lt 7 7 10 associ ations of miSNPs on monocyte gene expression in the References 1 Carthew RW Sontheimer EJ 2009 Origins and Mechanisms of miRNAs and siRNAs Cell 136 642 655 2 Rodriguez A Griffiths Jones S Ashurst JL Bradley A 2004 Identification of mammalian microRNA host genes and transcription units Genome Res 14 1902 1910 3 Kim YK Kim VN 2007 Processing of intronic microRNAs Embo J 26 775 783 4 Griffiths Jones S Saini HK van Dongen S Enright AJ 2008 miR Base tools for microRNA genomics Nucleic Acids Res 36 D154 158 5 Lewis BP Burge CB Bartel DP 2005 Conserved seed pairing often flanked by adenosines indicates that thousands of human genes are microRNA targets Cell 120 15 20 6 Bartel DP 2009 MicroRNAs target recognition and regulatory functions Cell 136 215 233 7 Krol J Loedige I Filipowicz W 2010 The widespread regulation of microRNA biogenesis function and decay Nat Rev Genet 11 597 610 8 Lu M Zhang Q Deng M Miao J Guo Y et al 2008 An analysis of human microRNA and disease associations PLoS One 3 e3420 9 Mishra PK Tyagi N Kumar M Tyagi SC 2009 MicroRNAs as a therapeutic target for cardiovascular diseases J Cell Mol Med 13 778 789 Urbich C Kuehbacher A Dimmeler S 2008 Role of microRNAs in vascular diseases inflammation and angiogenesis Cardiov
162. guler la production de prot ines ou s il peuvent au contraire influencer sur la quantit d ARN messager reste d actualit La tendance semblerait aller vers la seconde solution 51 ce qui justifie notre d marche Il n en reste pas moins qu une partie de la r gulation par les microARNs s effectue au niveau de la traduction de PARN messager et n est donc pas d tectable avec notre strat gie Type cellulaire tudi Enfin il est possible que le monocyte ne soit pas le type cellulaire id al pour la d tection de changement d expression par des miSNPs Il a t montr que certains microARNs pouvaient tre mis en cause dans certains types de cancer du sang et notamment au sein du monocyte pour plusieurs types de leuc mies 16 mais nous pourrions envisager d effectuer des recherches similaires 1 Pour rappel les ORFs pour open reading frame sont les r gions d un g ne potentiellement traduites en prot ine 119 9 2 3 Chapitre 9 Discussions et perspectives dans le macrophage pour lequel nous avons des donn es d expression dans P tude Cardiogenics R flexions li es nos recherches Conservation des microARNs On s attendrait a priori pouvoir d tecter facilement des SNPs situ s dans les s quences des microARNs En effet une variation de s quence dans un microARN mature ou dans sa r gion seed a le potentiel d alt rer le profil de fixation de ce microARN pour nimporte quelle r g
163. h increased expression of YEATS4 R 11 2 p 3 21x10 7 and NODI R 9 82 p 7 83x10 but with decreased expression of CNIN6 R 5 9 p 7 56x10 CTRC R 8 1 p 1 54x10 COPZ2 R 9 7 p 2 06x10 ARTI R 59 p 1 11x1071 LRRFIPI R 16 7 p 6 65x10 PCDHA6 R 16 4 p 2 67x10 1 ST5 R 17 0 p 251x10 and TRAF3IP2 R 8 9 p 5 23x10 1 Associations were homogeneously observed in CAD patients and healthy subjects from CTS Table 82 Search for miSNP x 3utrSNP interactions GHS discovery phase Each 3utrSNP was tested for interaction with all miSNPs with respect to the expression levels of the probes tagging the 3utrSNP associated gene Interactions were assessed using a standard linear regression analysis where PLOS ONE www plosone org both SNPs coded as 0 1 2 were included to the model together with the corresponding interaction term Analyses were adjusted for age and sex The total number of tested interactions was 4 890 102 Instead of applying the standard Bonferroni correction to handle multiple testing we followed the suggestion by Pare et al 29 and adopted a weighted Bonferroni correction according to the p value of the Levene s test This consists in prioritizing 3utrSNPs according to the significance of the test for a difference in the variance of expressions according to genotypes This strategy relies on the statistical property that a significant difference in phenotypic varian
164. hat the detected interactions are tagging for other complex haplotypic effects spanning a large distance and over several genes five genes lying between HLA DPB1 and hsa mir 219 1 and three between H1F0 and hsa mir 659 Figure 3 Additional functional experiments would be required to biologically characterize the detected statistical interactions Little is known about H F0 in human diseases except that it codes for a histone family member protein Interestingly hsa mir 659 has been shown to influence the risk of dementia 46 through a mechanism that could involve histone deacetylation 47 48 Although speculative the joint contribution of H F0 and hsa mir 659 on the risk of dementia could deserve further attention Conversely the HLA DPBI gene has been associated with several complex diseases such as pulmonary hypertension hepatitis B infection and systemic sclerosis 49 51 In addition hsa mir 219 1 was suggested to play a role in schizophrenia and in N methyl D aspartate NMDA glutamate receptor signaling two patho physiological mechanisms linked to HLA DPBI 52 53 making our results of valuable information for scientists interested in these pathologies Several limitations of this work must be acknowledged First because our investigation was conducted on genotyped data of common SNPs only 258 miRNAs were covered by our study which represent less than one quarter of the hypothesized total number of human miRNAs Second only o
165. heinland Pfalz for GHS These two studies have already been extensively described in 21 23 for GHS and in 26 57 for CTS Gutenberg Health Study This analysis was conducted in a population based sample of 750 men and 717 women aged 35 74 years of European descent Monocytic RNA was isolated from peripheral blood monocytes by negative selection using RosetteSep Monocyte Enrichment Cock tail StemCell Technologies Vancouver Canada Trizol extrac tion and purification by silica based columns Expression profiles were assessed using the lumina HT 12 v3 BeadChip Illumina CA USA with 48 000 probes covering 37 804 genes and generated data were pre processed using Beadstudio Values from probes with 1 bead were re imputed using SVD impute from the pcaMethods R package 58 Data were normalized using quantile normalization and VST transformation as implemented in the lumi R package To avoid spurious associations due to hybridation difference probes that contained SNPs or were not annotated to be of perfect quality according to ReMOAT 28 Reannotation and Mapping of Oligonucleotide Arrays Technologies http remoat sysbiol cam ac uk were discarded Individuals were typed for genome wide genotype data using the Affymetrix Genome Wide Human SNP Array 6 0 Affymetrix CA USA SNP analysis was restricted to autosomal SNPs with minor allele frequency gt 0 01 call rate gt 0 98 and Hardy Weinberg equilib rium testing p value g
166. hisme du zi gene HLA DPB1 pour en moduler l expression monocytaire Fa L4 D Nous avons galement montr que l expression monocytaire ws 0 du g ne HI1FO tait influenc e par un ph nom ne Qs d interaction impliquant un polymorphisme du microARN D hsa mir 659 Ca fo En apportant sa propre contribution l engouement D purkeotides z t Qepe r cent que suscite la recherche d interactions entre SAS polymorphismes dans les maladies dites Ss GX On A complexes ce travail de th se illustre Y i por clairement la difficult d une telle t che et nd ration osome Foe ake amp Fit r a ate RS l importance de r fl chir de nouvelles strat gies de recherches
167. hoice of the filtering method in microarrays affects the inference regarding dosage compensation of the active X chromosome PLoS One 6 e23956 Zeller T Wild P Szymczak S Rotival M Schillert A et al 2010 Genetics and beyond the transcriptome of human monocytes and disease susceptibility PLoS One 5 e10693 Rotival M Zeller T Wild P Maouche S Szymczak S et al 2011 Integrating genome wide genetic variations and monocyte expression data reveals trans regulated gene modules in humans PLoS Genet doi 10 1371 journal pgen 1002367 Weber C Zernecke A Libby P 2008 The multifaceted contributions of leukocyte subsets to atherosclerosis lessons from mouse models Nat Rev Immunol 8 802 815 Heinig M Petretto E Wallace C Bottolo L Rotival M et al 2010 A trans acting locus regulates an anti viral expression network and type diabetes risk Nature 467 460 464 Johnson AD Handsaker RE Pulit SL Nizzari MM O Donnell CJ et al 2008 SNAP a web based tool for identification and annotation of proxy SNPs using HapMap Bioinformatics 24 2938 2939 Barbosa Morais NL Dunning MJ Samarajiwa SA Darot JF Ritchie ME et al 2010 A re annotation pipeline for Illumina BeadArrays improving the interpretation of gene expression data Nucleic Acids Res 38 e17 Pare G Cook NR Ridker PM Chasman DI 2010 On the use of variance per genotype as a tool to identify quantitative trait interaction effects a report from the Women
168. i re que le microARN qui est compl mentaire la s quence du g ne sur 8mer le r gule ce qui emp che une interpr tation vidente d action du miSNP sur LYZ Apr s ajustement des associations en trans sur LYZ la plupart de ces associations restent significatives p 3 88 x 10711 1 15 x 1077 2 52 x 1076 1 65x10710 7 16x1072 2 44x107 8 23x 10 78 1 81x107 let5 66x107 respectivement pour CNTN6 CTRC COPZ2 KRT9 LRRFIP1 NOD1 PCDHA6 ST5 et TRAF3IP2 Lajustement sur YEATS4 donnant des p values respectives gales a 1 86x 107 1 72 10711 6 45 x 107 9 48 x 1077 6 10 x 10778 3 76 x 10718 1 59 x 10 78 2 33 x 107 et5 10 x 1078 Les ajustement sur LYZ et YEATS4 ensemble ne changeant pas fondamentalement les associations 2 98 x 1076 pour COPZ2 6 55 x 10 pour PCDHA6 La figure 8 4 donne une repr sentation de la r gion autour du miSNP rs1463335 On peut aussi voir dans la table 8 5 que ces neuf g nes ne sont pas tr s corr l s entre eux comme ils ne le sont pas fortement non plus avec LYZ le g ne dans lequel se trouve le proxy miSNP rs317657 106 8 3 L association de ces SNPs sur l expression des g nes CPSF6 LYZ YEATS4 m hsa mir 1279 rs1463335 rs317657 rs11177644 rs11177644 GHS best cis SNP GHS Rotival et al _ 69 670 000 69 690 000 69 710 000 69 730 000 69 750 000 69 770 000 FIGURE 8 4 R gion de l association entre le miSNP rs1463335 et les g nes LIZ et YEATS4 sur le
169. iables Il se trouve qu il existe des distributions pour lesquelles nous connaissons la distribution de leur somme Par exemple e la distribution normale la somme de n variables ind pendantes distribu es 2 normalement de moyennes u et de variance gf suit une loi normale de moyenne gt u et de variance gt 0 e la distribution du y la somme de n variables ind pendantes distribu es selon une loi du y k degr s de libert suit une loi du y k n degr s de libert e la distribution gamma qui est une g n ralisation de la distribution du y Ainsi par exemple si l on a n tests ind pendants alors sous HO la statistique 2 ln p value i 1 a une distribution de y 2n degr s de libert C est la m thode de combinaison des p values propos e par Fisher 37 De m me si est la fonction de r partition de la loi normale de centre 0 et de variance 1 sous HO la statistique Dim wi p value a w o les w sont les poids accord s chaque test a une distribution normale de centre 0 et de variance 1 Cette m thode introduite par Stouffer 114 est par exemple impl ment e dans le logiciel METAL 132 C est aussi la m thode que j ai utilis e pour effectuer la m ta analyse des tudes dans le chapitre 7 73 5 2 2 5 2 3 Chapitre 5 La gestion des tests multiples En d terminant la distribution par permutations Enfin l on peut toujours estimer la distribu
170. idemiol Biomarkers Prev 18 1183 1187 Hu Z Chen J Tian T Zhou X Gu H et al 2008 Genetic variants of miRNA sequences and non small cell lung cancer survival J Clin Invest 118 2600 2608 Morin RD O Connor MD Griffith M Kuchenbauer F Delaney A et al 2008 Application of massively parallel sequencing to microRNA profiling and discovery in human embryonic stem cells Genome Res 18 610 621 Lin Z Murtaza I Wang K Jiao J Gao J et al 2009 miR 23a functions downstream of NFATc3 to regulate cardiac hypertrophy Proc Natl Acad Sci U S A 106 12103 12108 13 14 16 17 18 September 2012 Volume 7 Issue 9 e45863 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Clop A Marcq F Takeda H Pirottin D Tordoir X et al 2006 A mutation creating a potential illegitimate microRNA target site in the myostatin gene affects muscularity in sheep Nat Genet 38 813 818 Martin MM Buckenberger JA Jiang J Malana GE Nuovo GJ et al 2007 The human angiotensin II type 1 receptor 1166 A C polymorphism attenuates microrna 155 binding J Biol Chem 282 24262 24269 Castagne R Zeller T Rotival M Szymczak S Truong V et al 2011 Influence of sex and genetic variability on expression of X linked genes in human monocytes Genomics 98 320 326 Castagne R Rotival M Zeller T Wild PS Truong V et al 2011 The c
171. ider avec d autres fragments simples brins si ceux ci leur sont compl mentaires Finalement on fragmente et amplifie PADN des individus et on les dispose sur les puces voir figure 3 3 La mesure de l hybridation des fragments des individus sur les puces permet de conna tre les g notypes des individus pour les marqueurs pr sents sur les puces ceux pr sents dans les s quences de r f rence si pour un individu on observe une hybridation bien plus importante sur les sondes contenant un premier all le que sur les sondes contenant un autre all le cela signifie qu il y a de grandes chances pour que l individu soit homozygote pour le premier all le Si au contraire on n observe pas de diff rences notables dans l hybridation c est certainement que Vindividu est h t rozygote Le principe des puces a ARN est sensiblement le m me cela pr s que les fragments de r f rence sont construits partir d ARN ce sont des fragments d ADN compl mentaires aux fragments d ARN et appel s ADNc pour ADN compl mentaires et les fragments des individus sont construits a partir d ARN galement Une s quence d ARN de r f rence repr sentant un g ne une forte hybridation indiquera une forte expression du g ne chez l individu et au contraire une faible hybridation indiquera une expression faible ou nulle Les expressions des g nes peuvent galement 28 3 1 Rappel historique puce a ADN puce a ARN BAI3 HOMERI
172. ie human diseases Nature reviews Genetics 10 392 404 2009 cf p 53 Cox D G Dostal L Hunter D J et al N acetyltransferase 2 polymorphisms tobacco smoking and breast cancer risk in the breast and prostate cancer cohort consortium American journal of epidemiology 174 1316 22 2011 cf p 33 Crick F amp Watson J Molecular structure of nucleic acids Nature 1953 cf p 26 Darwin C The Origin of Species 2 22 79 John Murray 1859 cf p 16 De Stefano V Martinelli I Mannucci P M et al The risk of recurrent deep venous thrombosis among heterozygous carriers of both factor V Leiden and the G20210A prothrombin mutation The New England journal of medicine 341 801 6 1999 cf p 87 Devlin B amp Risch N A comparison of linkage disequilibrium measures for fine scale mapping Genomics 1995 cf p 21 Djebali S Davis C A Merkel A et al Landscape of transcription in human cells Nature 489 101 8 2012 cf p 10 Doms A amp Schroeder M GoPubMed exploring PubMed with the Gene Ontology Nucleic acids research 33 W783 6 2005 cf p 100 Dorn G W Decoding the cardiac message the 2011 Thomas W Smith Memorial Lecture Circulation research 110 755 63 2012 cf p 100 121 Dorn G W Matkovich S J Eschenbacher W H et al A human 3 miR 499 mutation alters cardiac mRNA targeting and function Circulation research 110 958 67 2012 cf p 100
173. ih Inserm S PARIS UMRS 937 G nomique Cardiovasculaire a ea Os ECOLE DOCTORALE 420 SANTE PUBLIQUE THESE de doctorat de l Universit Paris Sud 11 Sp cialit G n tique Statistique Pr sent e et soutenue publiquement par Nicolas GRELICHE le 18 f vrier 2013 rches de ph nom nes ans les maladies multifactorielles Sous la direction de David Alexandre TREGOUET Membres du jury Mme Ga lle LELANDAIS Institut Jacques Monod Paris Rapporteur M David COX Centre de recherche en Canc rologie Lyon Rapporteur Mme Nadine ANDRIEU Institut Curie Paris Examinateur M Herv SEITZ Institut de G n tique Humaine Montpellier Examinateur M David Alexandre TREGOUET Inserm UMRS 937 Paris Directeur de These il AVANT OUVERTURE Conserver temp rature ambiante APRES OUVERTURE Conserver au frais et consommer dans les 48h Soupe d lice de l gumes d antan au beaufort A O C Knorr iii iv 2013 Nature Remerciements Inc All rights reserved nature remerciements Merci a tous Nicolas Greliche 1 2 3 4 J essaie dans ce papier de remercier toutes les personnes qui m ont aid es ou soutenues Pour ce faire j ai effectu un recensement exhaustif de l ensemble de mes faits et gestes sur les trois deni res ann es que j ai reli r cursivement a toutes les personnes y ayant particip directement ou indirectement en pr cisant leur degr d implication J ai ensuite rappro
174. ilit g n tique Tout avantage a ses inconv nients et r ciproquement Devise Shadok Dans le chapitre pr c dent nous avons vu que l ADN est l l ment cl de la vie car il contient toutes les instructions dont les cellules vivantes ont besoin pour fabriquer les bonnes quantit s de chaque prot ine Dans ce chapitre nous allons voir que les variations au sein de cet ADN sont l origine de la diversit du vivant du m canisme d volution mais aussi de certaines maladies Les sources de variabilit g n tique Les mutations Lors de la division cellulaire m canisme permettant le d veloppement de l individu ou le renouvellement de ses cellules il arrive parfois que l ADN ne soit pas copi parfaitement et que certaines bases soient transform es ins r es ou omises C est ce que l on appelle des mutations Lorsqu une mutation survient au sein d un chromosome d une cellule germinale voir encadr d un individu celle ci peut alors se transmettre sa descendance par la transmission de ce chromosome Comme chaque individu transmet la moiti de son mat riel g n tique sa descendance l autre moiti venant de son partenaire enfant qui h rite d une mutation a une chance sur deux de la transmettre son tour et c est ainsi que les mutations peuvent se propager de g n ration en g n ration 13 2 1 2 2 2 2 2 1 Chapitre 2 La variabilit g n tique Cellules germinales ce
175. in human complex diseases and traits Am J Hum Genet 89 607 618 Ellinghaus E Ellinghaus D Stuart PE Nair RP Debrus S et al 2010 Genome wide association study identifies a psoriasis susceptibility locus at TRAFS3IP2 Nat Genet 42 991 995 PLOS ONE www plosone org 12 50 SL 52 53 54 56 57 58 59 60 61 62 miRNA SNPs and Monocyte Gene Expression Strange Capon F Spencer CC Knight J Weale ME et al 2011 genome wide association study identifies new psoriasis susceptibility loci and an interaction between HLA C and ERAPI Nat Genet 42 985 990 Brown BD Naldini L 2009 Exploiting and antagonizing microRNA regulation for therapeutic and experimental applications Nat Rev Genet 10 578 585 Rayner KJ Esau CC Hussain FN McDaniel AL Marshall SM et al 2011 Inhibition of miR 33a b in non human primates raises plasma HDL and lowers VLDL triglycerides Nature 478 404 407 Inaoka H Fukuoka Y Kohane IS 2007 Evidence of spatially bound gene regulation in Mus musculus decreased gene expression proximal to microRNA genomic location Proc Natl Acad Sci U S A 104 5020 5025 Inaoka H Fukuoka Y Kohane IS 2006 Lower expression of genes near microRNA in C elegans germline BMC Bioinformatics 7 112 5 Rademakers R Eriksen JL Baker M Robinson T Ahmed Z et al 2008 Common variation in the miR 659 binding site of GRN is a major risk factor for TDP43 pos
176. inated by DAT and PEM All authors read and approved the final manuscript References 1 White RH The epidemiology of venous thromboembolism Circulation 2003 107 14 8 2 Rosendaal FR Venous thrombosis a multicausal disease Lancet 1999 353 1167 1173 3 Souto JC Almasy L Borrell M Blanco Vaca E Mateo J Soria JM Coll I Felices R Stone W Fontcuberta J Blangero J Genetic susceptibility to thrombosis and its relationship to physiological risk factors the GAIT study Genetic Analysis of Idiopathic Thrombophilia Am J Hum Genet 2000 67 1452 1459 4 Morange PE Tregouet DA Lessons from genome wide association studies in venous thrombosis J Thromb Haemost 2011 9 Suppl 1 258 264 5 Tregouet DA Heath S Saut N Biron Andreani C Schved JE Pernod G Galan P Drouet L Zelenika D Juhan Vague I et al Common susceptibility alleles are unlikely to contribute as strongly as the FV and ABO loci to VTE risk results from a GWAS approach Blood 2009 113 5298 5303 6 Germain M Saut N Greliche N Dina C Lambert JC Perret C Cohen W Oudot Mellakh T Antoni G Alessi MC et al Genetics of venous thrombosis insights from a new genome wide association study PLoS One 2011 6 e25581 7 Morange PE Tregouet DA Deciphering the molecular basis of venous thromboembolism where are we and where should we go Br J Haematol 2010 148 495 506 8 Cordell HJ Detecting gene gene interactions that underlie human diseases Na
177. ines mutations ou recombinaisons Ces tudes permettent notamment d estimer la part de la variabilit de la maladie qui est due la g n tique par rapport celle qui est due l environnement ext rieur comme l alimentation la pollution ou les virus Cette part des facteurs g n tiques dans la variabilit d un trait ph notypique s appelle l h ritabilit La figure 2 2 donne les estimations de l h ritabilit de quelques maladies ou traits communs Les causes biologiques D apr s le processus de synth se des prot ines que nous avons vu dans le premier chapitre il n est pas surprenant que les mutations et recombinaisons puissent aussi entra ner la survenue de certaines maladies En effet si par exemple une mutation survient dans la s quence codante d un g ne et que cette mutation entra ne la modification d un ou de plusieurs acides amin s lors de la traduction il est probable que la formation de la prot ine soit affect e Ceci peut engendrer la survenue d une maladie si la prot ine est non fonctionnelle alors qu elle est n cessaire l organisme cf figure 2 3 1 L expression d un g ne est l ensemble de ce qui est produit par une cellule partir de la s quence de ce g ne Par la suite j utiliserai quelque peu abusivement ce terme pour d signer la quantit d ARN produite par un g ne dans un type cellulaire donn 2 Un ph notype est l tat d un individu en ce qui concerne
178. ing so we observed that the rs9804128 and rs4784379 could interact to modulate both the risk of VT and the variability of FVIII levels The rs9804128 lies in the proximal promoter of the IGFS21 gene and according to the SNAP database 20 it is not in strong LD r2 gt 0 8 with any other SNP Conversely the rs4784379 is in strong LD with several SNPs all located at least 100kb away from the IRX3 locus However the observed interaction could be considered as counterintuitive since the allele combination associated with increased FVIII levels was found less frequent in cases than in controls This phenomenon could nevertheless be observed in presence of a mortality bias when patients with high levels of FVIII levels are at a higher risk of VT associated mortality eg pulmonary embolism and then under represented in the cases sample Further investigations are needed to replicate this association that involved SNPs at genes on which very little is known with respect to VT Conclusion In conclusion our work suggests phenomena between common SNPs contribute much to the risk of the VT that interactive are unlikely to Competing interests The authors declare they have no competing interests Authors contribution NG and DAT carried out statistical analyses MG JCL and WC were responsible for data collection and database management AMD DAT MB ML PA and PEM contributed to the study design whose direct implementation was coord
179. ion de n importe quel ARN messager susceptible de gagner ou perdre un peu en compl mentarit avec sa s quence Un tel potentiel d impact a cependant pour probable cons quence une attention particuli re de l organisme pour ce genre de variations Alors que les polymorphismes situ s dans les r gions 3 UTR cibl s par les microARNs sont relativement fr quents ce n est pas le cas pour les variations situ es dans les s quences des microARNs Les microARNs sont bien conserv s entre les esp ces proches et les variations au sein de leur s quence mature et de leur r gion seed sont tr s rares 20 100 Parmi l ensemble des miSNP identifi s dans GHS seuls 5 se situaient dans les s quences matures ou seed des microARNs Cependant nous n avons pas trouv de sur repr sentation d association chez ces miSNPs par rapport a l ensemble de ceux tudi s Interpr tation finale des r sultats Au final j aurai plut t tendance penser que notre recherche d associations entre SNPs li s aux microARNs et expression de g nes a donn un r sultat tr s int ressant qui est que les SNPs li s aux microARNs n ont peut tre en g n ral qu un effet modeste sur l expression des g nes Si tel tait le cas il ne serait alors pas illogique que nous n ayons pu trouver d association avec une r elle implication de SNPs li s aux microARNs Plusieurs hypoth ses de m canisme d autor gulation de l organisme en pr sence de variat
180. ion des microARNs b Nombre de miSNPs et 3utrSNPs identifi s dans dbSNP et dans GHS 102 8 3 8 3 1 8 3 L association de ces SNPs sur l expression des g nes proxySNPs Comme cela a t expliqu dans le chapitre 5 lorsque l on souhaite tester l association entre un SNP en particulier et un certain ph notype il n est pas n cessaire que ce SNP soit inclus sur la puce ADN utilis e Il suffit que celle ci contienne un SNP qui lui est fortement corr l C est ce qui a t fait ici Pour chaque SNP consid r comme li aux microARNs nous avons cherch lorsqu il n tait pas pr sent sur la puce ADN de GHS Affymetrix 6 0 un SNP inclus sur la puce qui lui tait corr l r gt 0 9 Aussi alors qu il n y a que tr s peu de SNPs pr sents sur la puce utilis e parmi les SNPs identifi s pr c demment le nombre de ces SNPs qui sont corr l s des SNPs pr sents permet finalement d tudier l association d un certain nombre de SNPs li s aux microARNs Les donn es de corr lations proviennent de l application en ligne SNAP SNp Annotation and Proxy search 57 Dans la suite du chapitre jutiliserai les termes proxy utrSNP et proxy miSNP pour d signer les SNPs de la puces repr sentant un utrSNP ou un miSNP respectivement non disponibles sur la puce Lassociation de ces SNPs sur l expression des g nes La premi re tape de l analyse a consist tester l ensemble des associations
181. ions g n tiques dans les microARNs peuvent tre avanc es R gulation par les g nes cibl s Les algorithmes de pr dictions estiment que chaque microARN pourrait r guler des centaines ou milliers de g nes Aussi il est possible que l ensemble des g nes r gul s par un microARN comportent des g nes qui se r gulent entre eux Par exemple on peut imaginer qu une variation dans un microARN emp che la r gulation d un g ne mais aussi celle d un autre qui serait r gulateur de ce g ne Ainsi il y aurait un m canisme de compensation interne l ensemble des g nes ce qui att nuerait les effets d une variation dans un microARN 120 9 2 Sur la recherche de polymorphismes li s aux microARNs et leurs impacts sur l expression des g nes R gulation par les autres microARNs De m me il semble que chaque g ne puisse comporter des sites de fixations pour plusieurs microARNs Il n apparaitrait alors pas illogique que notre organisme se soit cr un m canisme de r gulation bas sur la redondance Plusieurs microARNs ciblent les m me g nes et m me si l une des fixations n est pas possible cause d une variation dans un microARN les autres microARNs continuer de r guler les g nes cibl s par ce microARN ce qui att nue l effet de la variation 32 R gulation par les sites de fixation Enfin une derni re hypoth se pourrait tre que contrairement aux estimations effectu es le nombre de g nes r
182. is e dans GHS les SNPs ou leurs proxys situ s aux alentours des s quences des pri microARNs ainsi que ceux situ s dans les r gions 3 UTR des g nes pr sents sur la puce ARN e Jai ensuite commenc par tester l association des SNPs situ s autours des microARNs avec l expression des g nes du monocyte e Puis j ai r pliqu les r sultats obtenus dans GHS dans l tude Cardiogenics e Enfin j ai test l ensemble de ces SNPs en interaction avec ceux situ s dans les r gions 3 UTR de g nes sur l expression de ces g nes e Avant de r pliquer ces r sultats dans l tude Cardiogenics 8 2 Identification des polymorphismes Pour la localisation des SNPs des microARNs des g nes et des r gions 3 UTR jai utilis le g nome de r f rence GRCH37 53 voir encadr J ai utilis la base de donn es RefSeq 90 de NCBI pour National Center for Biotechnology Information pour identifier les g nes et leurs r gions JUTR dans le g nome de r f rence alors que la 17eme version de la base de donn es miRBase 43 m a permis d identifier les pre microARNs Comme il n y avait pas ma connaissance de base de donn es 101 Chapitre 8 Cap sur la recherche de polymorphismes li s aux microARNs de pri microARNs j ai simplement consid r comme faisant partie du pri microARN toutes les bases situ es moins de 200 bases du pre microARN Ce choix quelque peu arbitraire permet de s assurer la
183. is study Table 2 Interactive effects of the rs9804128 and rs4784379 on the risk of VT and on plasma FVIII levels 95 CI A G 0 56 0 53 0 58 0 55 A A 0 17 0 2 0 17 0 19 G G 0 19 0 24 0 17 0 21 G A 0 08 0 04 0 09 0 05 p 2 73 105 p 9 45 10 0 57 0 55 0 55 0 17 0 19 0 18 0 18 0 22 0 22 0 08 0 05 0 05 p 1 90 10 68 77 66 27 71 26 62 34 58 03 66 64 62 09 56 35 67 83 91 95 92 98 100 9 p 6 89 105 In MARTHA 1091 patients were measured for FVIII levels p value of the interaction term between the two SNPs in the logistic regression analysis under the assumption of additive allele effects p value obtained from thanet analysis of the EOVT and MARTHA samples using a fixed effect model p value of the interaction term between the two SNPs in the linear regression analysis adjusted for age sex ABO blood group and F5 F2 carriers mutations Table3 Plasma FVIII levels according to the rs9804128 and rs4784379 polymorphisms in 1091 VT patients 184784379 rs9804128 AA AG GG AA 115 91 32 80 132 70 49 75 136 16 51 35 N 34 N 231 N 321 CA 155 93 77 17 141 42 66 03 131 76 47 11 N 16 N 144 N 266 GG 156 00 68 98 150 17 42 90 122 90 60 11 N 4 N 23 N 52 Mean SE are shown did not detect interactions that reached the Bonferroni correction for the number of investigated interactions The absence of such interaction could of course be due to low power
184. it g n tique encore inexpliqu e par les approches classiques nous avons d cid dans ce travail de th se d investiguer l hypoth se d une h ritabilit manquante se situant dans des ph nom nes d interactions entre g nes 39 Chapitre 3 L pid miologie g n tique 4 y polymorphisme L gende a g n tique 2 Fo t ETELA TR fr quence de EN a gt es 20 lt J all le risque Le LL LLL 0 1 0 3 H1 Polymorphismes rares aux effets forts T auuu PHH sun l j H2 Nombreux i polymorphismes A aux effets faibles uuum ui A u i 20 muu o 6 i 1 ou anus DEL i p sfs 43 i i wut dug Muu H r Auuu wugu Grace aux GWAS i i SA f nous avons d couvert A 7 ew Ge de nombreux uui e f a so ME au Gumu muf 7 Ginn Hes i w tu polymorphismes g n tiques 17 z E fe he associ s aux maladies complexes mais ceux ci f n expliquent encore qu une faible Pr part de l h ridabilit totale pr dite 999 eee pour ces pathologies rs x Voil les 4 principales hypoth ses ais 5 T avanc es actuellement pour expliquer Hg Ph nom nes d interactions entre cette h ritabilit manquante g polymorphismes iy _ 0 cos H4 Ph nom nes pig n tiques ETS fea oe ufu telle que la m thylation A HiH FIGURE 3 10 Hypoth ses les plus couramment avanc es pour expliquer o se trouve Vh ritabilit m
185. it classe d avoir un tel nom sur sa page de couverture qu on fasse de la statistique ou non Merci aussi Nadine Andrieu et Herv Seitz qui vient lui de la ville du nouveau Champion de France de Ligue 1 Outre David et Fran ois il appara t d apr s les r sultats des GEE que plusieurs autres personnes du laboratoire ont eu une influence positive sur ma th se Merci donc Dominique Herv Ewa plein d tomates Bio wonderwoman Sophie Electromagnet Christine qui j esp re r ussira ma triser son pouvoir Nathalie Jean Marc Madame Marine Germain Lambert Badr dine Elmout trouve pas d appart Ulrike le gang des miss cong lo Laurence Carole et Claire avec qui j ai pass de tr s bons moments discuter cong lateur Nadjim qui a une table Ares qui ne sera bient t plus espagnole mais fran aise oui soyons s rieux la catalogne ne peut quand m me pas tre un pays M thylman Dylan grand copain d allergie qui prend le relais pour emb ter David Henri c est toi le Hen non moi c est ri maman tarte la cr me Guitoud et Vinh qui vient de manger un truc du frigo qui n est pas a lui mais que je pardonne parce qu il a bien relu ma th se et parce que ce qu il vient de manger n est s rement pas moi Si l on regarde bien la figure 1 ce n est pas forc ment vident premi re vue on se rend compte que de nombreux anciens du labo ont aussi contribuer ce que ma th se se passe plut t bien Vous pourrez en
186. itive frontotemporal dementia Hum Mol Genet 17 3631 3642 Fiesel FC Voigt A Weber SS Van den Haute C Waldenmaier A et al 2010 Knockdown of transactive response DNA binding protein TDP 43 downreg ulates histone deacetylase 6 Embo J 29 209 221 Fiesel FC Schurr C Weber SS Kahle PJ 2011 TDP 43 knockdown impairs neurite outgrowth dependent on its target histone deacetylase 6 Mol Neurodegener 6 64 Kamatani Y Wattanapokayakit S Ochi H Kawaguchi T Takahashi A et al 2009 A genome wide association study identifies variants in the HLA DP locus associated with chronic hepatitis B in Asians Nat Genet 41 591 595 Kominami S Tanabe N Ota M Naruse TK Katsuyama Y et al 2009 HLA DPB1 and NFKBILI may confer the susceptibility to chronic thromboembolic pulmonary hypertension in the absence of deep vein thrombosis J Hum Genet 54 108 114 Zhou X Lee JE Arnett FC Xiong M Park MY et al 2009 HLA DPB1 and DPB2 are genetic loci for systemic sclerosis a genome wide association study in Koreans with replication in North Americans Arthritis Rheum 60 3807 3814 Verhelst H Verloo P Dhondt K De Paepe B Menten B et al 2011 Anti NMDA receptor encephalitis in a 3 year old patient with chromosome 6p21 32 microdeletion including the HLA cluster Eur J Paediatr Neurol 15 163 166 Zamani MG De Hert M Spaepen M Hermans M Marynen P et al 1994 Study of the possible association of HLA class II CD4 and CD3 polymorphi
187. ix venom ACV test that explores the PC pathway in 17 for Factor VIII FVIID and von Willebrand Factor VWF and in 16 for Activated Partial Thromboplastin Time aPTT and Prothrombin Time PT Genotyping Individuals participating in the EOVT study were genotyped for 317 139 SNPs using the Illumina Sentrix HumanHap300 Beadchip The application of the quality control criteria described in 5 led the final selection of 291 872 autosomal SNPs for analysis As detailed in 6 individuals participating to the MARTHA GWAS were typed with the Illumina Human 610 Quad and Human660W Quad Beadchips 481 002 autosomal SNPs remained for analysis after quality control Statistical analysis A two stage genome wide interaction analysis was carried out The initial screening for pairwise SNPs interactions was carried out in the EOVT study The first step of the analysis consisted in reducing redundancy between SNPs by keeping only one SNP out of all SNPs in strong pairwise linkage disequilibrium r2 gt 0 90 within a window of 50kb Pairwise SNPs interactions were tested by a logistic regression analysis where both SNPs were coded under an additive model 0 1 and 2 according to the number of rare alleles and an interaction term was added in the model All interactions significant at p lt 10 4 were further assessed in the larger MARTHA study When SNPs were not available in the latter sample the best available proxy in term of r2 accordin
188. ized to be a modest size and very large sample size would be required to detect them Despite having robustly identified two interactions we cannot then exclude that other interactions with lower magnitude could have been missed due to power considerations even if the two genome wide expression datasets used in this work are among the largest collected so far in human epidemiological studies Third by discarding from our investigations probes harboring a SNP in their genomic sequence to avoid any bias in the results of the association analyses some miRNA sensitive regulatory mechanisms associated to genes tagged by probes matching their UTR region may have been missed Last our investigation was conducted in monocytes and results observed may not be portable to other cells or tissues Nevertheless our study illustrates that the proposed strategy searching for interaction between miSNPs and 3 UTR SNPs in genome wide expression studies could be an alternative to bioinformatics prediction tools to identify miRNA targeted genes Materials and Methods Ethics Statement This work was based on two genome wide expression studies the Gutenberg Health Study GHS for the discovery phase and the Cardiogenics Transcriptomic Study CTS for the replication stage Both studies were approved by the Institutional Ethical Committee of each participating center and by the local and federal data safety commissioners Ethik Kommission der Land esarztekammer R
189. l on tente de faire lorsque l on combine des tests Combiner quoi et pourquoi Le but de combiner des tests est d augmenter la puissance de ces tests en augmentant le nombre d observations Lorsque la combinaison s effectue entre tests d une m me tude elle permet aussi de r duire le nombre de tests et par la m me de limiter la correction pour tests multiples effectuer sur ces tests Combiner des tests identiques provenant d tudes diff rentes Lorsque l on n a pas assez de puissance pour d tecter un effet il est tentant d augmenter le nombre de sujets en utilisant les individus d une autre tude Cependant il n est souvent 70 5 2 Comment augmenter la puissance de d tection d un test pas souhaitable de former une seule grande tude a partir de plusieurs tudes ind pendantes D une part il y a souvent des diff rences de variables utilisation de puces a ADN diff rentes par exemple et d autre part les tudes entreprises s par ment ne sont en g n ral jamais construites exactement de la m me mani re Il en r sulte des populations parfois tr s diff rentes qui tudi es ensemble peuvent faire apparaitre de fausses associations Dans de tels cas il est pr f rable d effectuer les analyses sur chaque tude s par ment puis de combiner les tests On appelle ce type de combinaison des m ta analyses Combiner des tests diff rents au sein d une m me tude Parfois il se p
190. l Consortium WTCCC en 2007 128 qui r v la un bon nombre de nouveaux g nes de susceptibilit pour pas moins de sept maladies Les analyses de liaisons restent cependant encore utilis es aujourd hui car les donn es familiales ont certains avantages comme celui de fournir des populations tr s homog nes Les ann es 2000 ont aussi vu l arriv e des premi res tudes d expression en g nome entier GWES pour Genome Wide Expression Study dont le principe est de mesurer les expressions de tous les g nes du g nome par des puces ARN Il fut ainsi possible de combiner des donn es de g notypage avec des donn es d expression pour d tecter les polymorphismes susceptibles d tre impliqu s dans les traits tudi s La recherche d interactions pour tenter d expliquer lh ritabilit manquante Lh ritabilit manquante dans les maladies complexes Les maladie mend liennes Lorsqu une maladie est la cons quence de variation s g n tique s au sein d un faible nombre de g nes on dit que cette maladie est mend lienne Gr ce aux tudes de liaisons et d associations nous sommes parvenus identifier un nombre relativement important de g nes responsables de ces maladies Ceux du chromosome 7 sont indiqu s dans la figure 3 7 On y voit par exemple le g ne CFTR en vert dont Pune de ses formes est connue pour entra ner l apparition de la mucoviscidose 60 Les maladies complexes Les maladies com
191. le des quantit s de prot ines produites selon le type cellulaire 13 D apr s les r sultats de leurs recherches des s quences r gulatrices pour un g ne dans un type cellulaire pourraient chevaucher des s quences r gulatrices pour un autre g ne dans un autre type cellulaire ce qui les am ne proposer une red finition du concept de g ne 30 La r gulation de la production de prot ines d pend du type cellulaire Les r sultats du projet Encode ne sont pas si surprenants que a En effet l ADN est le m me dans chaque cellule d un individu mais certains endroits du corps nous 1 2 tout Ceci est d au fait qu avec le temps et au contact d environnements cellulaires et avons des doigts d autres le c lt ur ou le cerveau et ceux ci ne se ressemblent pas du ext rieurs diff rents nos cellules se sont diff renci es Aussi certains types cellulaires r gulent l expression de certains g nes permettant de fabriquer un grand nombre de certaines prot ines alors que d autres types au contraire inhibent leur expression permettant de mieux r pondre aux besoins de la cellule et de son environnement cf figure 1 6 Cette r gulation diff rentielle selon les types cellulaires n est pas encore bien comprise mais il est probable qu au dela des g nes et des microARNs une grande partie du g nome y soit sollicit e de m me que certains ph nom nes pig n tiques c est dire des v nements qui ne son
192. les facteurs g n tiques identifi s ce jour le groupe ABO FII FV FGG GP6 HIVEP1 KNG1 STAB2 STXBP5 ou encore VWF n expliquent encore qu une faible part de V h ritabilit estim e de la maladie 39 81 120 L hypoth se de nombreuses interactions Cette h ritabilit manquante pourrait se trouver au niveau d interactions entre les facteurs de risque g n tiques et environnementaux En effet il est d sormais acquis que les d ficits en prot ines importantes dans la cascade de la coagulation sanguine ne sont pas suffisants pour expliquer l apparition de thrombose veineuse 86 7 1 4 7 1 Motivations et strat gie de recherche Les d ficits en prot ine C 62 prot ine S 140 ou antithrombine 121 semblent agir en interaction avec un ou plusieurs autres facteurs de risque notamment g n tiques pour augmenter le risque de thrombose ce qui sugg re que de multiples facteurs g n tiques et environnementaux interagissent pour contribuer au risque de la maladie 17 97 Par exemple il a t montr que le risque d apparition de la maladie tait accru lorsque les femmes porteurs de la mutation G20210A du facteur FII codant pour la prot ine prothrombine ou de la mutation du facteur V Leiden utilisaient des moyens contraceptifs oraux 77 123 Pour ce qui est des interactions entre polymorphismes il a par exemple t montr que la mutation du facteur II combin e avec celle du facteur V Leiden accr
193. leurs impacts sur l expression des g nes Hypoth se de multiples combinaisons concurrentes La thrombose veineuse est une maladie complexe survenant fr quemment des suites d autres maladies telles que les maladies inflammatoires ou les cancers 19 et dont les facteurs de risques av r s sont tr s diverses immobilisation traumatisme tabac pilule contraceptive etc Ce constat serait facilement expliqu par une multitude de m canismes diff rents impliquant des acteurs diff rents mais dont la combinaison engendrerait la maladie Dans un tel sc nario on peut imaginer que la pr sence de certains facteurs g n tiques soient protecteurs pour certaines personnes et au contraire risque pour d autres si bien que sur une large population il est difficile d en d tecter les effets Difficult de d tection de telles interactions Sous cette hypoth se de multiples combinaisons de facteurs concurrents il faudrait pour d tecter ces combinaison rechercher des interactions entre multiples polymorphismes g n tiques pas seulement deux que nous avons fait ici Une telle entreprise serait cependant difficile car si la d tection d interaction entre deux polymorphismes reste faisable pour des interactions entre trois quatre ou plus de polymorphismes cela devient extr mement compliqu Le nombre de combinaisons augmenterait exponentiellement et n cessiterait un tr s grand nombre d individus et d importantes capacit s de
194. llules Les cellules germinales sont les cellules somatiques qui permettent la formation des gam tes telles que les spermatozo des et les ovocytes Ce sont les cellules susceptibles d tre transmises l embryon lors de la cellules reproduction Inversement le mat riel germinales g n tique des cellules dites somatiques cellules d un individu sont somatiques gam tes _ SAD SD ne sera jamais transmis a la descendance d un individu Limmense majorit des La fr quence des mutations est relativement faible On estime que le taux de mutations par paire de bases et par g n ration est d environ 2 5 x 1078 85 Ce taux varie cependant suivant l endroit du g nome et I exposition a certains v nements environnementaux L activit c r brale pourrait par ailleurs modifier les motifs de m thylation des individus 44 alors que ceux ci semblent corr l s certaines instabilit s au sein du g nome 72 79 Ces l ments sugg rent qu il ne serait pas impossible qu un individu puisse agir sur la fr quence de mutation de son ADN menant pourquoi pas l id e que les individus puissent influer et acc l rer l volution de leur esp ce 40 Les recombinaisons chromosomiques Lors de la m iose avant la formation des gam tes les deux versions de chaque paire de chromosomes peuvent se m langer et s changer du mat riel g n tique pour former de nouveaux chromosomes parfaitement uniques C e
195. logie Cette hypoth se est cependant en l g re contradiction avec les observations de chercheurs travaillant sur la maladie qui sugg rent au contraire que la maladie thromboembolique veineuse pourrait provenir de multiples interactions entre de nombreux facteurs de risque g n tiques ou environnementaux 17 Il est ensuite possible que notre manque de r sultats provienne de notre strat gie de recherche pour laquelle nous pourrions imaginer diff rentes am liorations e Nous pourrions tester d autres m thodes de pond rations comme celle bas e sur la p value du test de Levene e Nous pourrions aussi ne pas nous restreindre au seul chromosome 20 pour effectuer ces pond rations Cependant cela aurait aussi pour cons quence d augmenter le nombre de tests effectu s ce qui n est pas forc ment souhaitable e A l inverse nous pourrions nous restreindre des SNPs fonctionnels situ s dans des g nes et dont les diff rentes formes modifient la s quence prot ique induite e Une taille d chantillon plus importante nous permettrait de gagner en puissance et ainsi de pouvoir d tecter des effets modestes R flexions li es nos recherches Finalement une autre explication de notre manque de r ussite dans la d tection d associations significatives pourrait r sider dans la nature des interactions impactant la thrombose veineuse 116 9 2 9 2 1 9 2 Sur la recherche de polymorphismes li s aux microARNs et
196. ltiples La p value est la probabilit sur UN test et sous HO d observer une valeur de statistique plus extr me que celle r ellement observ e mais ce n est pas la probabilit sous HO d observer sur n tests une valeur de statistique plus extr me qu une de celles v ritablement observ es Or c est cette seconde d finition dont on aimerait avoir une mesure et que l on appellera par la suite FWER pour Family Wise Error Rate Classiquement si sur n tests on n a que 5 de chances sous HO d observer une valeur de statistique plus extr me que celle que l on a observ e sur le test k FWER lt S alors on pourra tre relativement confiant que l on n est pas sous HO sur le k ieme test Dans le cas contraire il est difficile de se prononcer car cela veut dire que la statistique que l on observe peut probablement tre arriv e juste par chance sous HO L id e des corrections pour tests multiples consiste d finir de nouveaux seuils pour la p value qui nous assurent d avoir une valeur de FWER assez 66 5 1 1 5 1 2 5 1 Les corrections pour tests multiples faible pour avoir une faible probabilit de se tromper lorsque l on d clare un test significatif La correction de Bonferroni La correction la plus simple et l une des plus couramment utilis e est la correction de Bonferroni 14 Elle repose sur le fait que si on choisit un seuil a 0 05 n o n est le nombre total de tests r alis s
197. m evidence for multiple interrelated causes Annals of internal medicine 145 807 15 2006 cf p 87 116 Calin G A Ferracin M Cimmino A et al A MicroRNA signature associated with prognosis and progression in chronic lymphocytic leukemia The New England journal of medicine 353 1793 801 2005 cf p 100 Carrier M Le Gal G Wells P S et al Systematic review the Trousseau syndrome revisited should we screen extensively for cancer in patients with venous thromboembolism Annals of internal medicine 149 323 33 2008 cf p 117 Chen K amp Rajewsky N Natural selection on human microRNA binding sites inferred from SNP data Nature genetics 38 1452 6 2006 cf p 120 Cheng Y amp Zhang C MicroRNA 21 in cardiovascular disease Journal of cardiovascular translational research 3 251 5 2010 cf p 100 Articles livres th ses 22 23 24 25 26 27e 28 29 30 31 32 33 34 35 Chico T J A Milo M amp Crossman D C The genetics of cardiovascular disease new insights from emerging approaches The Journal of pathology 220 186 97 2010 cf p 100 Cohen S N amp Chang A C Y Recircularization and Autonomous Replication of a Sheared R Factor DNA Segment in Escherichia coli Transformants Proceedings of the National Academy of Sciences 70 1293 1297 1973 cf p 27 Cordell H J Detecting gene gene interactions that underl
198. m lioration Aussi bien que notre puissance de d tection est trop faible pour les d tecter il se peut qu il y aient des ph nom nes d interactions entre les SNPs du chromosome 20 qui soient faiblement impliqu s dans la maladie thromboembolique veineuse rs1033807 rs6070829 8 63E 04 1 10E 05 rs1033807 rs6070829 8 63E 04 1 10E 05 rs1033807 rs6070933 1 2 14E 03 3 91E 06 1 85E 07 rs1033807 rs6070933 i 2 14E 03 3 91E 06 8 19E 08 rs10485756 rs1418927 1 2 52E 05 3 05E 03 2 44E 07 rs172470 rs2426778 2 58E 04 4 94E 05 1 03E 07 rs16995641 rs6018718 2 67E 03 2 30E 05 3 76E 07 rs1777361 rs6110458 1 3 93E 02 5 12E 07 1 07E 07 rs172470 rs2426778 2 58E 04 4 94E 05 5 96E 07 rs4811206 rs1293143 1 3 25E 01 1 45E 07 1 43E 07 rs1777361 rs6110458 3 93E 02 5 12E 07 6 23E 07 rs4811206 rs1293144 464E 01 9 17E 08 1 79E 07 rs214833 rs6126251 1 6 39E 02 5 49E 07 6 37E 07 rs6013469 rs9760 i 6 94E 06 1 11E 02 3 27E 07 rs4811206 rs1293143 3 25E 01 1 45E 07 6 39E 07 rs6043659 rs3746337 2 09E 07 2 09E 01 3 39E 07 rs4811206 rs1293144 4 64E 01 9 17E 08 7 55E 07 rs6054545 rs1327231 1 5 51E 05 2 15E 03 3 43E 07 rs6013469 rs9760 6 94E 06 1 11E 02 7 65E 07 rs6074012 rs4810671 1 3 20E 04 2 46E 04 4 43E 07 rs6034465 rs1262471 2 27E 06 1 55E 02 7 84E 07 rs6083931 rs2795025 1 38E 05 2 48E 03 4 59E 07 rs6043659 rs3746337 1 2 09E 07 2 09E 01 8 41E 07 rs6083931 rs803880 i 4 88E 05 3 34E 03 4 88E 07 rs6083931 rs2795025 1 1 38E 05 2 48E 03 1 08E 06 rs6098
199. m when both miSNP and 3utr proxy SNPs coded 0 1 2 according to the number of carried rare alleles are introduced in a linear regression model together with their interaction term P value of the interaction test derived from the standard linear regression analysis in CTS Bold p values correspond to the detected interactions that were significant after Bonferroni correction in the whole CTS DOCX Author Contributions Conceived and designed the experiments TZ PD JE CH WHO NJS HS TM KJL FC AHG LT SB Performed the experiments TZ Analyzed the data NG PSW MR AS AZ LT DAT Contributed reagents materials analysis tools MR AR AZ PD CH WHO NJS HS AHG SB Wrote the paper NG FC AHG LT DAT 11 Fernandez Hernando C Suarez Y Rayner KJ Moore KJ 2011 MicroRNAs in lipid metabolism Curr Opin Lipidol 22 86 92 Leeper NJ Cooke JP 2011 MicroRNA and mechanisms of impaired angiogenesis in diabetes mellitus Circulation 123 236 238 Slaby O Bienertova Vasku J Svoboda M Vyzula R 2011 Genetic polymorphisms and MicroRNAs new direction in molecular epidemiology of solid cancer J Cell Mol Med Hughes AE Bradley DT Campbell M Lechner J Dash DP et al 2011 Mutation Altering the miR 184 Seed Region Causes Familial Keratoconus with Cataract Am J Hum Genet Tian T Shu Y Chen J Hu Z Xu L et al 2009 A functional genetic variant in microRNA 196a2 is associated with increased susceptibility of lung cancer in Chinese Cancer Ep
200. maladie ne soit pas suffisant pour tre d tect par l approche adopt e Aussi nous avons essay de voir si ces 41 interactions n taient pas li es aux neuf biomarqueurs de la thrombose veineuse mesur s dans MARTHA en prenant soin d ajuster les mod les pour l ge le sexe le groupe sanguin ABO et la pr sence des mutations du facteur II et du facteur V Leiden Ceci nous a amen effectuer 41 x 9 369 tests pour un seuil de Bonferroni de 0 05 369 1 35 x 1074 Une interaction en est ressortie significative p value 4 82 x 107 Il s agit de l interaction entre le SNP rs9804128 situ dans la r gion promotrice du g ne IGSF21 et le SNP rs4784379 qui se trouve 130 000 bases en amont du g ne IRXS Cette interaction ressort associ e la mesure du niveau de facteur VIII les patients porteurs des all les G et A haplotype G A pour les SNPs rs9804128 et rs4784379 respectivement ayant des niveaux plus lev s que les autres individus Lhaplotype G A semble par ailleurs protecteur du risque de thrombose veineuse comme l illustre une fr quence environ double chez les t moins 0 083 par rapport chez les cas 0 046 voir figure 7 6 189804128 rs4784379 N 1228 N 419 N 1110 N 1542 N 2338 N 1961 Fr quence 95 Cr A G 056 0 53 0 58 055 057 0 55 0 55 68 77 66 27 71 26 A A 0 17 0 2 0 17 0 19 0 17 0 19 0 18 62 34 58 03 66 64 G 019 0 24 0 17 021 018 0 22 0 22 62 09 56 35 67 83
201. mber of interactions tested at this second step The meta analysis of the results obtained in EOVT and MARTHA led to 41 suggestive interactions with p values lower than 10 8 and with consistent effects in both studies Table 1 The smallest one p 6 00 10 11 was observed for two SNPs in the vicinity of SURF6 gene that is 40kb from the ABO locus After adjusting for the ABO blood group this interaction vanished p 0 37 suggesting that this interaction had captured the ABO effect through the linkage disequilibrium extending at this locus Despite the lack of study wise statistical interactions we could not exclude that some genuine interaction phenomena hide in the list of suggestive interactions Table 1 We hypothesized that the use of additional biological information on quantitative biomarkers of VT risk could help in digging into this list We therefore investigated whether the identified interactive SNPs could exert their effect on VT biomarkers available in MARTHA ACV aPTT AT Fibrinogen FVIII PC PS PT and VWE At the Bonferroni threshold of 1 35 10 4 for the number of performed tests i e 369 41 SNPs x 9 phenotypes one interaction was statistically significant p 4 82 10 5 It involved rs9804128 lying in the promoter region of the IGSF21 gene and the rs4784379 Table 1 Pairwise SNP interactions with suggestive statistical evidence p lt 10 in the meta analysis of two GWAS datasets gathering 1 961 cases and 2 33
202. miner la valeur de la statistique de Wald Une m thode classique pour y arriver est de passer par le calcul de l information de Fisher I associ e au param tre a qui peut tre d fini sous certaines conditions assez souples par 2 0 I a E aq eV IX a o E d signe l esp rance Son inverse est la borne de Cram r Rao 94 C est la plus petite variance que l on peut atteindre pour un param tre estim Lorsque le nombre d observations est important l estimation par maximum de vraisemblance tend vers cette borne C est donc la variance que l on va essayer de calculer ici En reprenant les notations et les calculs introduits dans la section 4 3 3 lors de l estimation des param tres du mod le logistique avec interaction on a donc la d riv e par rapport a de la log vraisemblance des observations OlogV Y X lt exp ax RE D x NO mme a 1 exp ax 1 Il est courant de mettre un chapeau sur le nom d un param tre pour repr senter une estimation de ce param tre 2 Lorsqu une variable suite une loi normale de centre 0 et de variance 1 le carr de cette variable suit une loi du y a un degr de libert 59 4 5 4 5 1 Chapitre 4 Les tests statistiques On peut alors de nouveau calculer sa d riv e par rapport a 8 log V Y X _ exp ax Oaxoa ijik exp ax pour laquelle esp rance n est autre que l oppos de l information de Fisher Il est alors po
203. mpliquent le 3utrSNP rs13053624 du g ne RFPL1 pour moduler l expression de la sonde ILMN_ 1797383 1 Ce 3utrSNP interagirait notamment avec le microARN hsa mir 3674 et d apr s la base de donn es microSNiPer 7 le g ne RFPL1 aurait un SNP le SNP rs13053817 dans un site potentiel de fixation pour ce microARN D apr s la base de donn es SNAP ce SNP est en fort d s quilibre de liaison avec notre 3utrSNP rs13053624 r 0 90 Nous n avons pas pu trouver d information parmi les bases de donn es de pr dictions de sites de fixation pour microARNs allant dans le sens de nos r sultats pour les 30 autres interactions R plication des r sultats dans Cardiogenics Nous avons essay de r pliquer les 51 interactions significatives dans Cardiogenics mais du fait de puces diff rentes seules huit de ces interactions ont pu effectivement tre test es Parmi ces interactions aucune n impliquait le 3utrSNP rs13053624 du g ne RFPL1 repr sent par la sonde ILMN_1797383 En utilisant le m me 1 Les noms des sondes provenant des puces ARN de la soci t Illumina consistent en un num ro pr c d des lettres ILMN et d un tiret bas 109 Chapitre 8 Cap sur la recherche de polymorphismes li s aux microARNs Ge m P value P value ne CHR Probe 3utrSNP miARN CHR miSNP miProxy 3utrProxy P deLevene Pond r e RFPL1 22 ILMN_1797383 rs 13053624 hsa mir 592 Fi rs11563750 rs11563505 rs13053817 1
204. naison avec l tude EOVT pour rechercher des ph nom nes d interaction li s la thrombose veineuse Nous Pavons galement utilis e pour rechercher des associations entre certaines interactions et les biomarqueurs que je viens de d crire 80 6 2 Les tudes GHS et Cardiogenics Voie intrins que Voie extrins que Surface endommag e Trauma TFPI XII XIla g l TT a Vila vil Xl Xla A ey i y Facteur tissulaire Trauma IX IXa Villa 7 fn Antithrombine Prothrombine D Ia Voie A Va oe gt commune E i 1 Fibrine Ia Prot ine C active Xilla XIII Maillage de fibrine Prot ine S caillot 2 Prot ine C Thrombomoduline FIGURE 6 1 Cascade de coagulation du sang 6 2 Les tudes GHS et Cardiogenics Les objectifs des tudes GHS et Cardiogenics sont de d couvrir de nouveaux facteurs de risque des maladies cardiovasculaires Je les ai utilis es pour rechercher des ph nom nes d interactions entre des polymorphismes li s aux microARNs qui pourraient affecter l expression des g nes voir chapitre 8 6 2 1 La Gutenberg Health Study GHS L tude GHS est une grande tude prospective initi e en 2006 par le docteur Stefan Blankenberg Elle vise plus sp cifiquement conna tre l tat de sant g n ral des habitants de la r gion de Mayence en Allemagne ainsi qu identifier de nouveaux facteurs de risque pour diverses pathologies avec une attention pa
205. nce of two pairwise interaction phenomena on monocyte expression involving miRNAs polymorphisms 1 the expression of HLA DPB1 was modulated by a polymorphism in its 3 UTR region with a polymorphism in the hsa mir 219 1 microRNA sequence 2 similarly the expression of H1FO was influenced by a polymorphism in its 3 UTR region interacting with a polymorphism in the microRNA hsa mir 659 Altogether this project supports for the role of gene x gene interactions in the interindividual variability of biological processes but their identifications remain a tedious task requiring large samples and the development of new research strategies and methodologies interaction microRNA venous thrombosis monocyte genetics GWAS statistics power multiple testing weighting heritability genetics SNP complex diseases h nom nes d interactions maladies multifactorielles Les tudes d associations en g nome entier GWAS ont r cemment permis la d couverte de nombreux polymorphismes g n tiques b n no tn impliqu s dans la susceptibilit aux maladies multifactorielles WA pie Ce 8 Cependant ces polymorphismes n expliquent qu une faible part de a dee oie nds K2 f S i l h ritabilit g n tique de ces maladies nous poussant ainsi u P 3 i explorer de nouvelles pistes de recherche ANNO 6 pete EZ Ca Une des hypoth ses envisag es serait qu une partie de cette h ritabilit manquante fasse intervenir des ph nom nes d i
206. nd mRNA decay Nature reviews Genetics 12 99 110 2011 cf p 119 International HapMap Consortium The International HapMap Project Nature 426 789 96 2003 cf p 75 International Human Genome Sequencing Consortium Finishing the euchromatic sequence of the human genome Nature 431 931 45 2004 cf p 9 31 101 Jacquard A Structures g n tiques des populations Population 24 1155 1160 1969 cf p 18 Janssens E La Th orie de la Chiasmatypie La Cellule 1909 cf p 26 John B Enright A J Aravin A et al Human MicroRNA targets PLoS biology 2 e363 2004 cf p 7 Johnson A D Handsaker R E Pulit S L et al SNAP a web based tool for identification and annotation of proxy SNPs using HapMap Bioinformatics Oxford England 24 2938 9 2008 cf p 103 Kaprio J Twins and the mystery of missing heritability the contribution of gene environment interactions Journal of internal medicine 2012 cf p 39 Kelly M Bagnall R D Peverill R E et al A polymorphic miR 155 binding site in AGTR1 is associated with cardiac hypertrophy in Friedreich ataxia Journal of Molecular and Cellular Cardiology 51 848 54 2011 cf p 101 Kerem B Rommens J M Buchanan J A et al Identification of the cystic fibrosis gene genetic analysis Science New York N Y 245 1073 80 1989 cf p 34 Klein R J Zeiss C Chew E Y et al Complement factor H polymorphi
207. ndant men a consid rer 41 interactions potentiellement int ressantes les interactions aux p values inf rieures 1078 voir figure 7 5 La plus petite p value p value 6 00 x 10711 est observ e pour deux SNPs rs493014 et rs886090 au voisinage du g ne SURF6 lui m me proche du g ne ABO environ 40 000 1 Par convention les noms de la majorit des SNPs de notre g nome consistent en un num ro pr c d des deux lettre rs 91 Chapitre 7 A la recherche de ph nom nes d interactions dans la maladie thromboembolique veineuse bases qui comme cela a t indiqu au d but de ce chapitre est un des principaux facteurs de risque de thrombose veineuse En ajustant cette interaction sur la variable groupe sanguin ABO l association dispara t p value 0 37 ce qui sugg re que cette interaction caract rise en fait gr ce au d s quilibre de liaison l effet de cette variable ABO On peut noter que deux SNPs rs8176746 et rs505922 rapport s comme repr sentant bien le groupe ABO 4 sont pr sents dans l tude EOVT Ils sont en d s quilibre de liaison avec le SNP rs493014 D 0 70 avec rs8176746 et D 0 69 avec rs505922 moins avec le SNP rs886090 D 0 27 et r 0 04 rsID 15493014 1s 1336472 15380904 156815916 152282015 1s 7648704 181985317 182321744 15315122 151423386 156491679 157714670 1512880735 159392653 189804128 1s 1364505 1s2288073 rs 1367228 1853647
208. ne Il University Medical Center Johannes Gutenberg University Mainz Mainz Germany 5 Institut f r Medizinische Biometrie und Statistik Universitat L beck L beck Germany 6 Human Genetics Wellcome Trust Sanger Institute Hinxton United Kingdom 7 Universitat zu L beck Medizinische Klinik Il L beck Germany 8 Klinik und Poliklinik f r Innere Medizin Il Universitat Regensburg Regensburg Germany 9 Department of Haematology University of Cambridge and National Health Service Blood and Transplant Cambridge United Kingdom 10 Department of Cardiovascular Sciences University of Leicester Leicester United Kingdom 11 National Institute for Health Research Biomedical Research Unit in Cardiovascular Disease Glenfield Hospital Leicester United Kingdom 12 Department of Clinical Chemistry University Medical Center Johannes Gutenberg University Mainz Mainz Germany 13 ICAN Institute for Cardiometabolism And Nutrition Pierre and Marie Curie University UPMC Paris 6 Paris France Abstract We aimed to assess whether pri miRNA SNPs miSNPs could influence monocyte gene expression either through marginal association or by interacting with polymorphisms located in 3 UTR regions 3utrSNPs We then conducted a genome wide search for marginal miSNPs effects and pairwise miSNPs x 3utrSNPs interactions in a sample of 1 467 individuals for which genome wide monocyte expression and genotype data were available Statistical associations that sur
209. ne cell type was studied where not all genes are expressed Therefore not all possible association could be explored Third expression were measured using the microarray technology that may be less efficient than emerging mRNA deep sequencing methods for measuring especially low abundant mRNA levels 54 55 Because a given miRNA can bind several genes and a given UTR can be a target for several miRNAs compensation HSD17B8 HLA DPAI HLA DPB2 COL11A2 SLC39A7 sa mr 2191 i HLA DPB1 RXRB RINGI 1 DE a rs1042448 12 205 4 HS 7 soon 030 00 050 33 070 000 33 020 000 000 30 000 150 000 33 170 000 18107822 H1FO GALR3 hsa mir 658 EIF3L E GCAT ANKRD54 _hsa mir 659 zz 131894644 15763137 Cardiogenics G 38 200 000 38 220 000 38 240 000 38 260 000 r52899293 GHS Figure 3 Location of genes miSNP and 3 UTR SNPs at the two detected interacting loci Gene are indicated as black rectangles with grey 3 UTR Bold red and blue SNPs represent miSNPs and 3utrSNPs respectively Corresponding proxies are non bold coloured Top HLA DBP1 locus on chromosome 6 Bottom H1F0 locus on chromosome 22 doi 10 1371 journal pone 0045863 g003 PLOS ONE www plosone org September 2012 Volume 7 Issue 9 e45863 phenomena are proposed to explain the relative low impact of miRNA regulation on mRNA expression generally observed 56 Therefore genetic effects associated with miRNA and PUTR SNPs are hypothes
210. ne r gion r gulatrice du g ne et affecte ainsi son expression sans passer par un microARN Afin d investiguer un 103 Chapitre 8 Cap sur la recherche de polymorphismes li s aux microARNs 181889470 0 24 0 011 20310 0 024 0 82 1812731630 0 09 0 011 63010 1 1512463867 0 03 0 004 13710 1 186775950 0 07 0 007 506107 0899 0 78 16775950 0 09 0 009 2 8010 0 893 0 44 136775950 0 08 0 010 14110 0277 0 23 189878092 0 03 0 004 312107 0 026 0 33 15753280 0 03 0 008 230107 0911 0 89 18753280 0 08 0 005 230107 13210 0 27 18753280 0 05 0 007 8 0710 0 965 0 97 183733897 0 07 0 013 28310 0 617 0 58 1550513 0 07 0 009 23210 1 1 00 1550513 0 11 0 014 37810 0 817 0 60 18213208 0 18 0 019 13410 65610 0 36 185014418 0 50 0 084 4 1310 0 533 0 03 182074512 0 05 0 005 302107 0 773 0 82 15221296 0 21 0 012 3 8410 1 11637670 0 06 0 009 5 6210 1 8810 0 53 186958795 0 07 0 016 16610 28410 0 02 136958795 0 09 0 010 147107 1 136958795 0 32 0 008 199107 NA NA 182898254 0 07 0 011 8 792107 0 885 0 13 1532296666 0 02 0 003 4 1810 0 423 0 36 182271751 0 07 0 009 lt 10 1 182271751 0 89 0 011 199101 0 053 0 14 183008309 0 15 0 018 1 65107 0345 051 183008309 0 12 0 025 44610 0 063 0 29 184919510 0 37 0 006 lt 0 0 873 0 96 184919510 0 27 0 010 23810 0 071 0 96 1811082987 0 11 0 010 13110 20610 0 04 1511032937 0 10 0 014 1 3810 24910 18317657 0 03 0 004 13910 47610 18317657 0 05 0 004 1 5010 NA 13
211. nnelle 2 C est pourquoi comme mes pr decesseurs34 j ai essay d en savoir plus et d identifier les personnes qui ont t d terminantes durant ma th se afin de leur faire un gros b cot Pour ce faire 34070 de mes faits et gestes ont t recens s 87 endroits diff rents entre septembre 2009 et octobre 2012 ainsi que leurs dates heures dur es et raisons lorsque cela tait possible Etrangement alors qu il y a tr s peu de donn es manquantes pour les trois premi res caract ristiques il ne fut pas rare que je ne trouve aucune logique certains comportements Pour relier l ensemble toutes les personnes y tant impliqu es j ai commenc par identifier les individus ayant soit pris part aux actions soit servis les effectuer J ai ensuite identifi les personnes reli es aux actions de ces individus et celles reli es leurs actions et ainsi de suite jusqu ne plus pouvoir trouver d origine humaine Afin d viter une trop grande perte de qualit d information due cette r cursivit j ai cependant choisi de limiter cette recherche aux individus n s apr s 1859 date choisie au hasard mais qui s av re remarquable car en y ajoutant 11 13 2 141 elle permet d obtenir environ 2000 Au final un peu plus de 3 milliards de personnes de tous origines ont t int gr es dans l analyse Le g notypage de ces individus un temps envisag a finalement t abandonn car je n ai pas pu trouver de raison
212. nteractions entre Ce polymorphismes g n tiques L objectif de cette th se est d explorer cette Ua ceguhatton FA 3 hypoth se en adoptant une strat gie de recherche d interactions bas e P PAN ations sur des crit res statistiques et biologiques a partir de donn es issues de perttabllli r z Se i diff rentes tudes GWAS as codage same Ce combinaison Muf ultin log ws P rametas Ainsi en utilisant diff rentes m thodes statistiques nous avons Ne istriby te commenc par rechercher des interactions entre polymorphismes aa DUGON qui pourraient influencer le risque de thrombose veineuse Cette ene fh recherche n a malheureusement pas abouti l identification de peo ok lyin te z Te x i wey us W 3 fe r sultats robustes vis a vis du probl me des tests multiples E of 7 population ones i ARN QZR Dans un deuxi me temps partir d hypoth ses plus Lp Br Se Sr YD we as biologiques nous avons tent de mettre en vidence des OS 4 interactions entre polymorphismes impliqu s dans les LE ERS A m canismes de r gulation de l expression g nique AN POS 5 EE 8 P geniq f SE gt A iS zE ee associ s aux microARNs Nous avons pu ainsi montrer de correlation a Ps Se L d tecte O LES OR mani re robuste dans deux populations ind pendantes LE z t E qu un polymorphisme au sein de la s quence du microARN ge hsa mir 219 1 interagissait avec un polymorp
213. ntillon qui consiste alors en une somme de termes plus facile manipuler 1 yi axt y2ro 20 La fonction logarithme tant strictement croissante le maximum de la vraisemblance log V Y X D log est donc aussi le maximum de la log vraisemblance et l on peut estimer les valeurs des param tres qui permettent d atteindre ce maximum en annulant la d riv e de la 56 4 3 Les mod les utilis s et Pestimation de leurs param tres log vraisemblance La d riv e par rapport a Q valant 0 1 k est Lee ee au ax et si pour tous les individus o alors celle ci s annule lorsque n X iOi axt 0 i On obtient ainsi un syst me de k 1 quations lin aires r soluble analytiquement et nous donnant les estimations des param tres du mod le Estimation des param tres d un mod le logistique Lestimation des param tres d un mod le logistique est similaire Si l on appelle Y la variable binaire malade non malade par exemple avec y 1 si l individu est malade et y 0 sinon si de plus on appelle X1 et X2 les variables g notypiques cod es additivement pour les SNPs 1 et 2 et que l on suppose un lien logistique entre le risque de survenue de la maladie et les g notypes pour ces deux SNPs ainsi que leur interaction alors la probabilit qu un individu i soit malade peut s crire exp dg a1X1i 2X2 A3X1 X 9 ajustements PY 1 MlMlMlml 1 exp a
214. nucl otide est reli par son groupement phosphate au carbone 3 du pentose du nucl otide qui le pr c de Cette convention est importante car les brins d ADN et d ARN sont orient s Ils ne peuvent tre synth tis s que dans le sens 5 vers 3 et il en est de m me pour la traduction en prot ine groupement phosphate Q NH o 5 P o N base azot e O CA N 5 0 N A 4 pentose 1 N orientation num ros des 5 vers 3 carbones 3 t 3 1 2 2 L ARN messager LARN est galement une mol cule constitu e d un enchainement de nucl otides mais contrairement l ADN sa structure est simple brin et elle comporte une base azot e diff rente la thymine de l ADN est remplac e par l uracile U dans PARN t LARN transcrit partir des g nes n est pas conserv tel quel tout au long de sa vie 1 LARN se diff rencie aussi de l ADN par la substitution d un atome d hydrog ne par un groupement hydroxyle en position 2 du sucre 4 1 2 3 1 2 Des g nes aux prot ines rath ja spliceosome spliceosome exon 3 UTR Les spliceosomes enl vent les introns du I pre mARN lors de l pissage L ARN messager est alors export puis traduit en prot ine gr ce au ribosome FIGURE 1 3 Processus de maturation de PARN messager mais subit des suppressions de certaines parties de ses s quences les introns lors de l pissage cf figure 1 3
215. o a1X1i 42X2 a3X1iX2 ajustements et la probabilit que l individu i ne soit pas malade est 1 AY 0 1n 1 exp ao a1X1i 42X2 a3X1iX2 ajustements OU dg A1 Az et a sont les param tres li s l effet global le g notype du SNP 1 celui du SNP 2 et l interaction entre ces deux g notypes respectivement Comme pr c demment on simplifiera criture en appelant x le vecteur 1 Xii Xoi X1iX2 ajustements et a le vecteur do dj do a3 ajustements permettant d avoir ax dg 41X1 2X2 43x X2 ajustements Si les observations sont ind pendantes on obtient la vraisemblance en faisant le produit des probabilit s de chacune des observations p eran 2 veno Fares ras Tas exp ax i 1 exp ax 57 4 4 Chapitre 4 Les tests statistiques la log vraisemblance est alors log V Y X Si yiaxt log 1 exp ax et sa d riv e par rapport a a ee des X y exp ax TAa g exp ax En cherchant analytiquement si cela est possible ou num riquement sinon les valeurs des param tres qui annulent cette d riv e on obtient les estimations du maximum de vraisemblance des param tres de ce mod le logistique Distribution de la statistique Principe g n ral Lorsque l on a combin les observations de sorte avoir une statistique qui discrimine bien les hypoth ses il faut ensuite savoir si la valeur observ e de la statistique
216. ocated in gene UTR regions miRNAs PLOS ONE www plosone org 1 September 2012 Volume 7 Issue 9 e45863 genomic sequence however when miRNAs are located within gene introns they are highly likely to modulate the expression of the host gene 2 3 According to the latest miRNA reference database miRBase release 18 www mirbase org 4 it is estimated that more than 1 500 miRNAs could exist in humans A given miRNA may have several mRNA targets and participates in the regulation of a network of genes with genomic sequence similarities 5 Reciprocally a given mRNA may harbour in its PUTR region several different miRNA target sites and then be under the control of a set of miRNAs It is estimated that overall about 50 of the genome would be subject to regulation by miRNAs 6 7 making them one of the most important component of a cell It is then not surprising to find miRNAs associated with a large number of human diseases 300 diseases according to the human miRNA disease database 8 including cardiovascular and metabolic disorders 9 12 As with any genomic sequence miRNAs are prone to nucleotide variations that may have non negligible effects The presence of a single nucleotide polymorphism SNP in the long miRNA primary pri miRNA may affect its maturation process its expression or the binding of the mature form to its target which would then influence the expression of the target genes 13 14 This is the case for e
217. ogistique est le test de Wald C est aussi celui ci que j utilise dans ce document Si l on consid re le cas d un param tre unique pour simplifier il 58 4 4 Distribution de la statistique consiste utiliser l estimation du param tre a dans la statistique duo var 1 2 o ay correspond la valeur du param tre sous l hypoth se HO Pour nous l hypoth se HO sera toujours l absence de lien et on prendra donc ay 0 alors que var a repr sente la racine carr e de la variance du param tre estim Abraham Wald montra que cette statistique avait asymptotiquement c est dire lorsque le nombre d observations tend vers l infini une distribution normale de moyenne 0 et de variance 1 126 Lorsque l on a k param tres estimer c est le carr de cette statistique qui est en g n ral calcul et qui est distribu selon une loi du y k degr s de libert Il suffit alors de calculer les probabilit s qu une variable avec cette distribution obtienne des valeurs plus extr mes que celles que l on observe pour savoir si les variables associ es aux param tres estim s peuvent tre consid r es ou non comme tant associ es au caract re que l on essaye d expliquer Calcul de la statistique de Wald Nous avons d j vu comment l on pouvait estimer les valeurs des param tres de nos mod les Il nous reste donc voir comment on peut calculer leur variance afin de d ter
218. ogy Hill Valley California USA SUS Government Project Quantum Leap Stallion s Gate New Mexico USA Received 21 October 2015 accepted 26 October 1985 published online 18 February 2013 doi 05 1955 ng 11 NATURE REMERCIEMENTS VOLUME NUMBER 34 FEVRIER 2013 viii e auteur Greliche N Zeller T Wild P S Rotival M Schillert A Ziegler A Deloukas P et al 2012 Comprehensive Exploration of the Effects of miRNA SNPs on Monocyte Gene Expression PloS one 7 9 Greliche N 2012 Introduire des concepts statistiques en faisant appel Vintuition Troisi me colloque francophone international sur l enseignement de la statistique CFIES Angers ouco WE 1 Troisi me coloque francophone international sur renseignement ce 1e statistique EX PRE 12 13 et 14 septembre 2012 Quco de r vision OPEN Q ACCESS Freely available online PLOS on Comprehensive Exploration of the Effects of miRNA SNPs on Monocyte Gene Expression Nicolas Greliche Tanja Zeller Philipp S Wild Maxime Rotival Arne Schillert Andreas Ziegler Panos Deloukas Jeanette Erdmann Christian Hengstenberg Willem H Ouwehand Nilesh J Samani Heribert Schunkert Thomas Munzel Karl J Lackner Fran ois Cambien Alison H Goodall Laurence Tiret Stefan Blankenberg David Alexandre Tregou t the Cardiogenics Consortium TINSERM UMR_S 937 Piere an
219. oir contribuer pr s de 7 de l h ritabilit g n tique de la maladie thromboembolique veineuse 39 Nous avons ainsi test les interactions entre 6 092 SNPs sur la maladie menant 6 092 6 091 2 18 553 186 tests et un seuil de Bonferroni 2 70 x 107 Ces tests ont t effectu s s par ment dans les tudes EOVT et MARTHA Les 15 premiers r sultats de ces sont donn s dans la figure 7 9 On y voit que les plus petites p values ne passent pas le seuil de Bonferroni 2 09 x 1077 dans EOVT et 6 06 x 107 dans MARTHA 94 7 5 2 7 5 Pond rations et combinaisons 1586043659 0 601 183746337 0 414 1 2 09E 07 rs7264608 0 039 156128273 0 0 454 15487377 0 21 0 228 186075458 0 21 0 409 2 09E 07 rs4811206 0 45 0 796 131293144 0 46 0 959 1 9 17E 08 15761901 0 40 0 938 15975137 0 22 0 264 2 12E 07 184811206 0 45 0 796 151293143 0 42 0 876 1 45E 07 182326660 0 17 0 900 186123082 0 29 0 621 3 53E 07 rs6054992 0 24 0 215 181983702 0 2 0 251 3 57E 07 15979242 0 37 0 872 156021083 0 30 0 576 1 6 22E 07 rs6038151 0 28 0 582 183092379 0 42 0 035 3 78E 07 186064733 0 25 0 136 182284803 0 17 0 594 1 6 43E 07 181777361 0 33 0 064 186110458 0 21 0 587 1 5 12E 07 181984279 0 40 0 832 ms1291211 0 09 0 772 7 23E 07 18214833 0 27 0 260 186126251 0 21 0 480 1 5 49E 07 1 1 1 1 1 1 1 1 1 1 I 1 1 1 1 1 I 1 i 1 1 1 1 156132784 0 19 0 379 186125111 0 41 0 959 i 8 74E 07 188120756 0 36 0 711 gt rs2567608
220. oissait le risque de thrombose r currente chez les personnes ayant d ja t affect es par la maladie 28 Une tude plus r cente a aussi rapport plusieurs interactions potentielles entre 86 polymorphismes sur une tude de cohorte de 439 individus parmi lesquels 43 d velopp rent la maladie 137 Le tout sugg rerait qu il y a potentiellement de nombreuses interactions entre polymorphismes qui peuvent agir sur le risque de la maladie thromboembolique veineuse Pourtant ce jour et notre connaissance aucune recherche d interaction en g nome entier n a t r alis e sur le risque de thrombose veineuse C est ce que nous avons cherch faire ici avec les donn es des tudes EOVT et MARTHA Strat gie de recherche Comme on peut le voir sur la figure 7 2 la strat gie de recherche adopt e peut tre r sum e en plusieurs tapes e Dans un premier temps j ai identifi et s lectionn dans l tude EOVT les SNPs non redondants qui n taient en fort d s quilibre de liaison r lt 0 9 avec aucun autre SNP conserv ceci de mani re r duire le nombre de SNPs utilis 243 189 contre 268 356 auparavant et ainsi r duire la correction pour tests multiples effectu e e Nous avons ensuite test l ensemble des 243 189 x 243 188 2 2 96 x 101 interactions entre SNPs sur le statut malade non malade dans EOVT e Les 2 126 084 interactions ayant une p value inf rieure 10 furent ensuite t
221. ol culaire miRBase 12 43 base de donn es r pertoriant l ensemble des microARNs identifi s PDB 12 base de donn es r pertoriant l ensemble des structures 3D de macromol cules biologiques publiquement disponibles dbSNP 105 base de donn es r pertoriant l ensemble des polymorphismes identifi s et GenBank 11 base de donn es r pertoriant l ensemble des s quences de nucl otides publiquement disponibles 32 3 1 6 3 1 Rappel historique Les strat gies d analyse en pid miologie g n tique La recherche en pid miologie g n tique n cessite l utilisation de ce que l on appelle des tudes Ces tudes consistent au recrutement d individus pr sentant d j une variabilit ph notypique comme pour les tudes cas t moins ou qui pr senteront une variabilit ph notypique tudes de cohorte et pour lesquels on identifie le g notype pour certains marqueurs g n tiques tels que des SNPs et on peut r cup rer certaines autres caract ristiques tels que l ge le sexe ou des mesures biologiques Les analyses de liaisons Lorsque l on a peu de marqueurs g n tiques notre disposition une mani re de pouvoir tout de m me identifier les r gions du g nome impliqu es dans le trait tudi est de recruter et g notyper des familles pour ces marqueurs En effet comme PADN des individus d une m me famille provient d anc tres communs tr s r cents cet ADN n a pas pu
222. omplexes l o elle se trouvait 58 75 Parmi les hypoth ses les plus souvent voqu es l h ritabilit inexpliqu e proviendrait e de variants rares aux effets forts La plupart des marqueurs g n tiques pr sents sur les puces a ADN tant relativement fr quents fr quences de l all le mineur sup rieure 1 l utilisation de ces puces ne permet pas de d tecter l effet de variants rares Les m thodes statistiques classiquement utilis es sont aussi souvent peu adapt es ce genre d analyse de tr s nombreux polymorphismes aux effets faibles non d tect s car le grand nombre tests effectu s dans les analyses de GWAS implique des corrections pour tests multiples s v res ne permettant pas de d tecter des effets faibles L augmentation des tailles des tudes devrait a priori permettre de d tecter ce genre de polymorphismes de ph nom nes pig n tiques qui ne sont pas d tectables par les puces ADN classiques Il existe par exemple maintenant des puces sp cifiquement adapt es la d tection de la m thylation des ph nom nes d interactions entre g nes ou avec l environnement pas syst matiquement test s et qui sont difficiles d tecter du fait de l augmentation importante des nombre de tests qu ils engendrent L ensemble de ces hypoth ses est r sum sur la figure 3 10 La strat gie adopt e dans ce travail de th se Partant du constat de cette grande part d h ritabil
223. on LYX expression but after adjusting for rsl1177644 the association of rs1463335 with Y ATS4 was no longer significant p 0 748 This haplotype analysis also revealed strong trans haplotype associations which were due to a single haplotype rs317657_C rs11177644_A which was after adjusting for LYZ Gutenberg Health Sudy Cardiogenics Transcriptomic Sudy 5 14 T A A T Cc T 06 0 33 0 09 Figure 2 H1F0 rs1894644 x hsa mir 659 rs5750504 interaction on H7FO monocyte expression In the Gutenberg Health Study the rs1894644 rs5750504 pair was tagged by rs763137 rs2899293 In the Cardiogenics Transcriptomic Study the corresponding tagging pair was rs1894644 rs6000905 doi 10 1371 journal pone 0045863 g002 PLOS ONE www plosone org September 2012 Volume 7 Issue 9 e45863 miRNA SNPs and Monocyte Gene Expression 9001 98S700 aU0d jeusnol LZ L OL10p 9 _OL tzt d ZZ0 0 4 uolssaidxe 747 paseas2ap YUM payelrosse SEM ajal e 1 59 LESA SU pyOZZ LL LSA 104 Bunsnfpe 134V OL 95 6 d 8070 d UOIssasdxa 747 pasea12ap YUM pajeldosse sem ajal e D bb9 LL LSI SU ZG9Z LESA 104 Bunsnfpe I YY e 8 Z 0 d 000 g uolssaudxa PSLVIA UUM payelsosse 12BU0 OU sem ajalje 1 S9 LES1 Y PYLLI L LSA 104 Bunsnfpe sayy OL 9 L d 797 0 d uolssaidxe pSLYJA Paseas2ap YIM payeldosse sem ajal e D yH9ZZLLLS4 ayy ZS9Z LES 107 BuNsnipe sayy aeudoidde uaym suolssaidxe S1 34 pue
224. on et la magnitude de l effet d interaction test il est par ailleurs ais de d terminer les magnitudes des effets d interaction d tectables avec une puissance fix e plut t que l inverse Jai donc calcul les magnitudes minimums des effets d interactions SNP SNP qui avaient 80 de chances d tre d tect es puissance de 80 par les tests de Wald effectu s dans l tude EOVT c est dire en faisant hypoth se d un mod le additif et en choisissant un seuil de significativit de 0 05 2 96 x 1012 1 7 x 1071 seuil de bonferroni pour les 30 milliards de tests Afin de raccourcir les temps de calculs nous n avons en fait pas opt pour effectuer les calculs des effets d tectables sur l ensemble des couples de SNPs de l tude mais sur des classes de couples de fr quences all liques et odds ratios marginaux similaires Nous avons choisi des classes de fr quences all liques de largeur 0 025 et allant de 0 1 0 5 Nous avons opt en ce qui concerne les odds ratios marginaux pour des classes de largeurs 0 01 allant de 1 2 4 Ce faisant nous sommes arriv s un ensemble de 11 726 classes diff rentes et donc 11726 11726 1 2 6 9 x 107 calculs Odds ratios d tectables La courbe noire de la figure 7 4 en partie confondue avec la courbe beige repr sente la densit des magnitudes minimales d tectables pour les effets d interactions entre SNPs avec une puissance de 80 On y voit une densit
225. on porteur n est malade Codage de l interaction Rappelons que l on a opt pour un codage en 0 1 2 des g notypes des SNPs qui permet de d tecter des effets additifs mais galement des effets dominants et r cessifs relativement forts Un mod le d interaction qui appara t math matiquement intuitif est le mod le o les effets des deux SNPs sont multipli s C est aussi un mod le relativement intuitif d un point de vue g n tique et qui se trouve tre l encore un compromis entre les mod les multiplicatifs d effets dominants figure 4 6 b et r cessifs figure 4 6 c deux autres mod les intuitifs d un point de vue g n tique 54 4 3 2 4 3 3 4 3 Les mod les utilis s et Pestimation de leurs param tres b 2 CC X X 1 CG 0 GG O AA 1 AT 2 TT 0 AA 1 AT 2 TT 0 AA 1 AT 2 TT X X X FIGURE 4 6 a le mod le d interaction multiplicatif lorsque les effets marginaux sont additifs b mod le multiplicatif lorsque les effets marginaux sont dominants c mod le multiplicatif lorsque les effets marginaux sont r cessifs Mod les utilis s Finalement lorsque nous avons tent de d tecter des ph nom nes d interaction SNP SNP nous avons utilis les mod les multiplicatifs tels que d crits pr c demment lin aires pour les expressions des g nes ou logistiques pour le ph notype malade non malade avec un codage additif des g notypes ajust s sur les g notypes margin
226. ond pas l ensemble de la s quence d ADN de notre g nome mais seulement certaines portions appel es g nes Pour proc der la fabrication d une prot ine le brin correspondant la s quence d un g ne est copi par compl mentarit de ses bases azot es en acide ribonucl ique ARN l int rieur du noyau lors de ce que Pon appelle la transcription Ce processus est initi l extr mit du g ne dans la r gion appel e promotrice sur laquelle peut se fixer l ARN polym rase un complexe compos de plusieurs prot ines qui se chargera Chapitre 1 Le fonctionnement du vivant de copier l ADN en ARN Par ailleurs la configuration de la mol cule d ADN n tant pas sym trique voir figure 1 2 les deux brins d ADN sont orient s Ils le sont en sens inverse l un de l autre et c est cette orientation qui d termine entre autres le sens de copie de l ADN Il est d usage de d crire une s quence dans son orientation 5 vers 3 voir encadr Extr mit s 5 et 3 Les extr mit s 5 et 3 font r f rence aux carbones des sucres de l ADN ou PARN Chaque nucl otide est compos d un sucre ayant cinq atomes de carbone pentose Par convention ces atomes sont num rot s de 1 5 de sorte que la base azot e se lie au carbone 1 du pentose alors que le groupement phosphate est reli l atome 5 La s quence d ADN ou d ARN provient de la succession de nucl otides o chaque
227. onucl otides ddNTPs A C G ou T Les ddNTPs sont des nucl otides qui ne poss dent pas de groupe hydroxyle leur extr mit 3 ce qui les emp che de se lier avec un nucl otide suppl mentaire Dans le milieu ainsi form chaque brin compl mentaire au fragment initial se met cro tre gr ce l ajout de nucl otides par l ADN polym rase jusqu l ajout d un ddNTP de type particulier On se retrouve ainsi avec des fragments de tailles variables mais qui correspondent aux morceaux de s quences du fragment initial qui se terminent par la base compl mentaire au type de ddNTP int gr Cette op ration est effectu e quatre fois avec chaque type de ddNTP puis on compare les poids des diff rents fragments obtenus en les faisant migrer dans un gel par l application d un champ lectrique Comme les fragments de petites tailles migrent plus rapidement que les fragments de grandes tailles apr s avoir arr t le champ lectrique on peut d terminer le type de ddNTP correspondant au fragment qui a migr le plus loin Ce type de ddNTP est aussi le type de la premi re base On fait de m me pour le second fragment qui a migr le plus loin et ainsi de suite de mani re d terminer la s quence compl te du fragment initial en l occurrence de son compl mentaire Finalement on r p te cette exp rience pour chaque fragment de la s quence d ADN de d part et par similarit des extr mit s des fragments s quenc s
228. ording to the rs5750504 proxy was significant p 3 03x10 and p 5 67x10 in GHS and CTS respectively validating the interaction detected through standard linear regression analysis p 2 98x10 and p 1 37x10 respectively Note that in GHS the rs763137 SNP involved in this interaction was the best cis eSNP for H1F0 p 1 10x107 As shown in Table 83 the two replicated interactions were consistent in CAD and healthy subjects composing CTS Table 3 Correlation between gene expressions influenced by the rs317657 tagging the hsa mir 1279 rs1463335 CTRC LRRFIP1 CNTN6 PCDHA6 TRAF3IP2 NOD1 ST5 LYZ YEATS4 KRT9 LRRFIP1 0 204 1 CNTN6 0 137 0 237 1 PCDHA6 0 202 0 449 0 200 1 TRAF31P2 0 129 0 271 0 202 0 270 NOD1 0 225 0 126 0 047 0 062 0 029 1 ST5 0 210 0 517 0 192 0 411 0 274 0 176 1 LYZ 0 156 0 143 0 070 0 125 0 170 0 113 0 125 1 YEATS4 0 079 0 162 0 110 0 113 0 250 0 070 0 140 0 558 1 KRT9 0 217 0 485 0 168 0 402 0 302 0 166 0 740 0 133 0 121 1 COPZ2 0 188 0 400 0 131 0 341 0 236 0 140 0 592 0 143 0 093 0 590 doi 10 1371 journal pone 0045863 t003 PLOS ONE www plosone org 4 September 2012 Volume 7 Issue 9 e45863 miRNA SNPs and Monocyte Gene Expression Table 4 Genome wide significant p lt 1 02 107 interactions between miSNPs and 3utrSNPs on monocyte gene expression in the Gutenberg Health Study GHS Levene G
229. orever Brasil Philippe Florian la benz Cindy ala Aur lien frappe de mule tant qu il l a pas mang e Baby Foot Vaness Runner Coolin Colin Antoine qui devrait bient t faire sa cr maill re Julien Franck Ronan Thomas Christophe Romain J rome et Math discussions de tar s dans le train pour Rennes ieu M me si ils ont plus eu tendance avoir un r le en amont de ma th se je remercie aussi Olivier le trentenaire Marc qui appr cierait le seuil de significativit qui suit Sam G qui doit passer le code Flo qui soutient le m me jour que moi JR qui va bient t nous pondre le nouveau Another World et Sam A qui s est lui aussi lanc dans la gal re th sardienne Tous ressortent au seuil FDR de 10 62 Tous ces remerciements proviennent principalement de la recherche d associations avec mon panouissement personnel Pour ce qui est de l aspect plus professionnel il a fallut que je m adonne l utilisation de mod les mixte al atoires multiniveaux random hi rarchiques nested effets al atoires en split plot Il en a r sult ma gratitude envers deux clusters de personnes Le premier compos de Valentina Moskvina Dobril Ivanov et Paul Buckland que Bathilde a rejoint depuis et qui m ont introduit au domaine de l pid miologie g n tique Le second est lui compos des professeurs et charg s de TD de biostatistique de Paris 7 et notamment Bruno Toupance et Anne Badel qui m ont fait d couvrir les joie
230. otein S Blood 85 3518 3523 1995 cf p 87 133 Bibliographie Sites web autres 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 134 23andMe https www 23andme com cf p 162 Cardiogenics http www cardiogenics org cf p 82 Consent to Research http weconsent us about us cf p 163 DNA 11 http www dna11 com cf p 162 Dosage des facteurs de la coagulation Portail sant du minist re de la sant du Luxembourg http www sante public lu fr maladies traiteme nts 020 examens analyses biologiques cf p 79 GeneGroove http www genegroove com cf p 162 GenePartner http www genepartner com cf p 162 Genomes Unzipped http www genomesunzipped org cf p 163 GoPubMed http www gopubmed org cf p 100 Guinness World Records http www guinnessworldrecords com cf p 29 Gutenberg Health Study http www gutenberghealthstudy org cf p 81 Illumina World Personal Genome Registry http www worldpgr com cf p 161 Online Mendelian Inheritance in Man OMIM http omim org cf p 35 openSNP http opensnp org cf p 163 Ou est charlie imitation Charlie se trouve dans un casier en haut a gauche http www nioutaik fr images charlie ecole JPG cf p 36 Personal Genome Project http www personalgenome
231. ouvent facile de simuler des observations sous notre hypoth se HO en r assignant al atoirement le ph notype tudi aux individus Ainsi les associations r elles sont cass es et toutes les statistiques que l on pourra calculer sur ces donn es simul es permettront d estimer la distribution de la statistique sous HO C est la m thode d estimation de la distribution 46 4 3 4 3 Les mod les utilis s et Pestimation de leurs param tres par permutations Elle permet d estimer n importe quelle distribution mais en contre partie pour que l estimation soit pr cise elle requiert de tr s nombreuses simulations ce qui peut parfois prendre beaucoup de temps et n cessiter des capacit s de calculs importantes Conclusion du test la valeur de probabilit G n ralement la conclusion d un test statistique consiste au calcul de la valeur de probabilit couramment appel e p value c est comme cela que je l appellerai par la suite gr ce a la distribution de la statistique que l on a d termin e auparavant Par d finition la p value est la probabilit si HO est vraie d observer pour un test une statistique plus extr me que celle v ritablement observ e En fonction de la valeur de cette p value plus elle est faible plus on consid rera que notre hypoth se n est pas plausible et des objectifs du test on d cide alors de rejeter ou non notre hypoth se HO Lorsque le test effectu
232. par Martin Handford en 1987 et diffus e en France partir de 1989 45 dans laquelle le lecteur doit retrouver le personnage de Charlie un jeune homme portant des lunettes et habill d un bonnet et d un pull rayures horizontales rouges et blanches La difficult du jeu r side dans le fait que sur chaque page o l on doit trouver Charlie celui ci se retrouve entour de centaines d autres personnages et objets On peut voir un exemple d imitation de la s rie dans la figure 3 8 Si vous n y trouvez pas Charlie vous pouvez trouver la solution la fin de cette th se 155 premi re vue la recherche de polymorphismes impliqu s dans un ph notype parmi l ensemble des polymorphismes d une tude g nome entier peut sembler un peu similaire la recherche de Charlie parmi tous les personnages pr sents sur une m me image Cependant comme nous allons le voir la quantit de donn es et la complexit d une recherche de polymorphismes dans une GWAS est bien sup rieure ce qui peut se trouver dans un tel jeu et c est peut tre l une des raisons pour lesquelles nous sommes encore tr s loin d avoir trouv tous les facteurs g n tiques des maladies complexes O est Snippy Si notre recherche consistait en un jeu de type O est Charlie les r gles en seraient cependant forc ment un peu diff rentes e Le but ne consisterait pas en la recherche de Charlie mais d un nombre non communiqu
233. phisme polymorphismes og A a T aGta eCraAce ee ect AGATTACAGATTACAGATTACAGATTACAG AC ea Tr A tAr Ag GAG GCE EH ACATTACAGATTACAGATTACAG AE ri Coo Gt At AAG 6 AE ZC Et AGATTACAEGAE afti cAr AGGA eCe 6T AGATTACAGATTACAGAC g notype GT l individu est g notype CC l individu est h t rozygote pour ce SNP homozygote pour ce SNP r eaGid Ce RAG EAE E 661 AGATTACAGATTACAGATTACAG AE i ae haplotype g notype all le majeur la d letion tant l all le mineur FIGURE 2 4 Visualisation de quelques termes li s la variabilit g n tique Le d s quilibre de liaison Mutations et recombinaisons cr ent le d s quilibre de liaison Si les mutations taient le seul ph nom ne expliquant la variabilit de notre g nome lorsqu une mutation appara trait au sein du g nome d un individu le chromosome contenant la mutation serait transmis de g n ration en g n ration inchang except pour les rares mutations nouvellement apparues et la mutation serait alors intimement li e l ensemble des autres mutations de ce chromosome Autrement dit tous les individus qui auraient un certain all le pour un polymorphisme d un de leurs chromosomes auraient de grandes chances d avoir galement les m mes all les pour les autres polymorphismes de ce chromosome On appelle cette liaison entre les polymorphismes le d s quilibre de liaison Cependant chez l homme il n y a que sur
234. plexes en revanche sont des maladies dont les causes sont la fois g n tiques et environnementales avec des possibles interactions entre ces facteurs 34 3 2 La recherche d interactions pour tenter d expliquer V h ritabilit manquante Extrapolation 2500 2304 2283 2000 1500 1000 500 2005 2006 2007 2008 2009 2010 2011 2012 Source Catalog of Published Genome Wide Association Studies http www genome gov gwastudies FIGURE 3 6 Nombre de GWAS r alis es chaque ann e Ayant r alis ce graphique avant la fin de l ann e 2012 le nombre de GWAS r alis es en 2012 est une extrapolation du nombre de GWAS r alis es au moment de la cr ation du graphique Chromosome 7 G nome de r f rence hg18 q31 2 1l 50 000 000 100 000 000 150 000 000 FAM20C ISPD GARS GLB EGFR ELN AKAP9 COG5 AASS AKRIDI NOS3 MAD1L1 TWISTI NT5C3 GCK GUSB CD36 SGCE DLD PAX4 BRAF DPP6 LENG DNAH11 RP9 IKZF1 ASL HGF PONI PPPIR3A LEP AGK EN2 BRAT1 IL6 NME8 DDC KCTD7 SEMA3E DLX5 FOXP2 FLNC PRSS1 SHH AP5Z1 FAM126A POU6F2 PSPH NCF1 KRIT1 CAVI IRF5 PRSS2 MNX1 ACTB KLHL7 MPLKP SBDS ABCB4 TFR2 MET SMO KEL PMS2 DFNA5 C7orfl0 POR GATAD1 BPGM EZH2 GLCCII cycs BLVRA HSPB1 PEX1 TSPAN12 TRIM24 PAXP1 HOXA1 PGAM2 PTPN12 SAMD9 TAS2R16 TBXAS1 LMBR1 HOXA2 NPC1L1 ABCB1 EPO RBM28 CLCNI HOXA11 ccM2 CALCR IMPDH1 NOBOX HOXA13 COL1A2
235. pr alablement consenti les fournir malgr les risques encourus L objectif du projet est alors d emmener les donn es ne pas tre d di es une tude en particulier mais rendues disponibles la communaut scientifique 143 Le projet genomes unzipped enfin est un projet men par 12 personnes dont le but est de tester les risques et b n fices de l information g n tique en mettant disposition du public leurs donn es g notypiques 148 peut tre parfois trop OpenSNP est une initiative en l ger d calage avec les pr c dentes Ce site internet propose aux gens qui le souhaitent de rendre publiques leurs donn es g notypiques tout en renseignant librement d autres informations comme ph notypes Au contraire des deux premiers projets ce site internet ne s assure pas particuli rement que les individus qui soumettent leurs donn es soient conscients des risques qu ils prennent Il permet aux inscrits de cr er des ph notypes de mettre leur nom et leur photo ou de renseigner leurs liens de r seaux sociaux 154 Il est m me possible d y int grer les donn es g n r es par les produits Fitbit qui enregistrent par exemple des donn es sur la qualit du sommeil de l individu portant l instrument Tout cela sous licence creative common zero licence sans restriction d utilisation ou de distribution Au moment de l criture de document 282 individus y avaient mis leurs donn es de g notype a disposition
236. ptomique haut d bit 2011 5 Maxime Rotival Approches int gr es du g nome et du transcriptome dans les maladies complexes humaines 2011 et plein d autres trucs qui n existent pas forc ment et que vous ne lirez de toute fa on jamais companie avant qu il ne p rissent pour la nuit des temps ainsi que leur souhaiter bonne chance au cas ou Les travaux de Minus et Cortex sur les lasers cosmico reducteurs avaient montr en 1998 la faisabilit du voyage gallaxio temporel bord de gruy res quantiques Ce n est cependant qu en 2001 que Malcolm et Dewey2 se basant sur les r sultats des professeurs Shadoko et Tournesol surtout du second en fait ont pu adapter le concept au champ octo dimensionnel pour aboutir la machine de Turing Cox Apr s avoir am lior le matrice de passage intrafusionnelle5 nous avons r ussi en 2007 a naviguer hors du champ snikersien vers Fantasia et Laputa 7 avant qu en 2008 Will Hunting et al 8 utilisent de la poudre d azote liquide pour atteindre Santa Destroy Finalement nous venons de d chiffrer grace a la d couverte du Boson de Higgs la question ultime associ e a la r ponse 42 du sens de la vie Cette question est la suivante 1California Institute of Technology Pasadena California USA California University Palo Alto California USA 3Center for Search for Extraterrestrial Intelligence SETI Arecibo Observatory Puerto Rico USA Institute of Future Technol
237. ques Niveau d expression du g ne f x a a x 10 0 X Nombre de 0 1 2 copies de l all le T AA AD IT FIGURE 4 3 Relation lin aire entre le nombre de copies de l all le mineur d un SNP et le niveau d expression d un g ne En gris le SNP n a pas ou peu d effet sur l expression du g ne l inverse en vert le SNP a un effet additif relativement fort sur son niveau d expression Mod le logistique Le mod le logistique est un mod le liant une variable binaire tel que le caract re malade non malade des variables explicatives telles que les g notypes des individus pour un SNP cf figure 4 4 Il se d finit math matiquement par l quation EXP dp Ay X14 dgXq a X P y 1 0 IT 22 p p 1 exp ao A X a2X2 ax o y est la variable binaire recod e en 0 1 alors que x X2 Xp et Ap A1 A2 a repr sentent comme pour le mod le lin aire les variables explicatives et leurs param tres associ s Notons que lincertitude qui tait comprise dans la variable e dans le mod le lin aire est directement int gr e la variable que l on tente d expliquer dans le mod le logistique puisque l on ne mod lise pas y mais sa probabilit de valoir 1 Notons qu il est courant de transformer les param tres du mod le logistique en odds ratios voir encadr pour faciliter leur interpr tation 48 4 3 1 4 3 Les mod les utilis s et Pestimation de leur
238. r 1 0 1 n 1 00 01 02 03 04 05 06 07 08 09 00 01 02 03 04 05 06 07 08 09 05 06 o7 08 09 10 Enter color values os mp El Figure 1 Application R colorPicker 1 0 Les r sultats les plus significatifs de l analyse haplotypique qui fut par ailleurs particuli rement difficile r aliser en absence de donn es g notypique furent un temps exclus pour cause d carts l quilibre d Hardy Weinberg Une investigation plus pouss e montra cependant que j ai d cid de simplement ne pas me pr occuper de ce d s quilibre Il en ressortit le r sultat fort peu attendu d un r le majeur de mes parents dans mon bien tre personnel et professionnel Aussi je les remercie fond de me laisser faire mes conneries et de continuer me soutenir quoi qu il arrive Vous remarquerez que j ai fait bien attention ne pas dire la phrase bateau o je remercie mes parents sans qui je ne serai rien mince L tude stratifi e des donn es de corr lations par le mod le de Cox Simpsons classe hein C est parce qu il y a Cox dedans m incite aussi faire un grand merci l ensemble de ma famille Je remercie en particulier mon fr re et ma soeur qui ont fait en sorte que l on atteigne le nombre n cessaire de 11 joueurs pour faire une quipe de football Valentin T o Tim o et Axel se rajoutent en effet Papou Luc Mathieu Pascal Pidane Aur lien Papitou et moi oui a fait 12 mais il faut bien des
239. r chaque groupe en deux et ainsi de suite comme un arbre jusqu a avoir un certain nombre de branches Cette op ration est r alis e un grand nombre de fois de mani re a tester un grand nombre d arbres dans le but de trouver un arbre qui r v le des groupes d individus aux ph notypes bien diff rents 74 La m thode hypercube Les m thodes du type hypercube consistent a disposer les individus dans un espace ayant autant de dimensions que de polymorphismes puis a cr er des hypercubes en fixant al atoirement des contraintes sur certaines des dimensions de l espace en fixant par exemple le g notype d un polymorphisme Le but de la m thode est de trouver des hypercubes qui contiennent des individus ayant des ph notypes diff rents de ceux les individus qui sont en dehors de l hypercube De nombreuses m thodes comme les deux derni res valuent ensuite la pertinence des interactions identifi es en faisant ce que l on appelle de la validation crois e C est dire que les interactions sont recherch es sur une partie des donn es puis leur validit est test e sur le reste des donn es Pour ce qui est de comparer des m thodes on peut simuler des donn es sous diff rentes hypoth ses et tester les diff rentes m thodes sur ces donn es 3 a On dit qu une maladie est p n trance compl te lorsque les individus porteurs de la variation causale sont tous malades et qu aucun individu n
240. re notamment a la maturation des r gion 3 UTR des ARN messager lors de la transcription Il est possible que hsa mir 1279 joue un r le dans le ph nom ne mais le g ne CPSF6 semble aussi un bon candidat pour tre impliqu dans la r gulation du cluster de g nes De plus les g nes LYZ et YEATS4 n tant pas loign s du microARN on ne peut exclure que la variation responsable de l association observ e soit situ e dans une r gion r gulatrice d un de ces deux g nes et que les associations sur les autres g nes du cluster passent par ce g ne Nous avons cependant montr que nos associations restaient significatives apr s ajustements sur ces g nes ce qui tend r futer cette derni re hypoth se Les interactions avec les g nes HLA DPB1 et H1FO En ce qui concerne les deux r sultats d interaction trouv s associ s aux expressions des g nes HLA DPB1 et H1F0 ma r serve viendrait cette fois de la proximit des miSNPs potentiellement impliqu s dans ces associations En effet le miSNP rs107822 du microARN hsa mir 219 1 se trouve environ 120 000 bases du g ne HLA DPB1 il n est pas impossible que le miSNP soit un marqueur pour une variation situ e dans une s quence r gulatrice du g ne De m me le miSNP rs5750504 du microARN hsa mir 659 se situe 40 000 bases du g ne H1F0 et l on peut l aussi imaginer que l association implique une interaction entre deux SNPs li s au g ne L hypoth se d une implication
241. rois milliards de paires de bases azot es Chaque base azot e existe en quatre versions l ad nine A la thymine T la guanine G et la cytosine C dont les bases compl mentaires sont respectivement T A C et G La s quence d ADN c est dire l ordre dans lequel ces quatre diff rentes bases azot es s enchainent dans l ADN forme ce que l on appelle le g nome Il est identique pour toutes les cellules et fournit les instructions de fabrication des prot ines les mol cules qui assurent la plupart des fonctions n cessaires la vie cellulaire 1 A quelques variations pr s car en r alit chaque mol cule d ADN peut se distinguer l g rement des autres si elle subit des erreurs de copie des modifications de certaines bases ou de petits r arrangements entre certaines s quences 1 2 Des g nes aux prot ines T x cellules Sa uy 4 hy 23 paires de chromosomes Ke noyaux My NG mie T devi molt eules N A ra yen y cytosine C nyt chromosome m thylation He stan possible sur NE la cytosine Fa j p Dark Re B 9 guanine G A groupement SL 7 phosphate LA vi deux brins compl mentaires a bases azot es A T G ou C FIGURE 1 2 LADN r side au sein de chacune de nos cellules 1 2 Des g nes aux prot ines 1 2 1 Les g nes En fait la s quence g n tique permettant aux cellules de savoir comment fabriquer les prot ines ne corresp
242. rot ines Ce processus s effectue gr ce au code g n tique universel car identique chez la grande majorit des esp ces vivantes et qui chaque triplet de nucl otides de ARN associe un acide amin La succession des triplets pr sents dans PARN permet l agr gation de centaines d acides amin s pour former une prot ine une mol cule tr s complexe qui peut avoir des fonctions tr s diverses dans la cellule ou en dehors Par exemple l actine participe la structure de notre corps les histones permettent la compaction de l ADN alors que les enzymes augmentent ou r duisent les vitesses des r actions chimiques de notre organisme 1 3 1 3 1 1 3 2 1 3 Les microARNs des r gulateurs de la production de prot ines Les microARNs des r gulateurs de la production de prot ines Role des microARNs Il existe aussi dans notre g nome des s quences d ADN qui ne codent pas pour des prot ines mais qui sont toutefois transcrites en ARN Parmi ces ARNs on trouve les ARN ribosomiques ARNr les ARN de transfert ARNt les petits ARN nucl olaires snoARN les petits ARN nucl aires ARNsn ou encore ceux qui vont nous int resser par la suite les microARNs Les microARNs sont une importante famille de petits ARNs longs de 18 25 nucl otides simple brin qui r gulent expression des g nes apr s la transcription en orientant la fixation d un complexe prot ique appel RISC RNA induces silencing complex
243. rsque l on souhaite mod liser le risque de survenue d une maladie C est aussi celui utilis dans ce document lorsque le ph notype a expliquer est de ce type Les variables du mod le Les g notypes Chaque individu ayant deux copies de chaque chromosome autosomal le r le jou par un g ne un microARN un SNP ou tout autre l ment variable du g nome r sulte en r alit des actions combin es des deux versions de ces l ments les deux all les de Pindividu Parfois comme l avait mis en vidence Gr gor Mendel 80 cette combinaison est compl tement domin e par un seul des all les auquel cas 49 Chapitre 4 Les tests statistiques Probabilit d avoir la maladie f x exp a x 1 1 exp a x 1 i a 3 OR 20 a 0 7 OR 2 04 X nombre de r r 0 1 2 copies de l all le T AA AT TT FIGURE 4 4 Relation logistique entre le g notype d un individu pour un SNP et sa probabilit d tre atteint par la maladie En gris un effet additif p n trance compl te observable dans certaines maladies mend liennes En vert un effet additif fort observable dans certaines maladies complexes on parlera d all le dominant les autres all les tant r cessifs D autres fois on a des all les codominants dont les effets se combinent lorsqu ils sont ensemble la position d un SNP qui ne peut avoir que deux all les par exemple C ou T un individu a trois g notypes possibles
244. rticuli re pour les maladies cardiovasculaires 151 Le design de l tude consiste recruter entre 2006 et 2012 pr s de 17 000 hommes et femmes sains g s de 35 74 ans et de les soumettre deux examens m dicaux approfondis au centre m dical universitaire de Mayence le premier lors de leur recrutement et le second 5 ans plus tard Dans le m me temps un certain nombre de pr l vements biologiques notamment sanguins sont effectu s permettant le g notypage des individus et pour certains sujets la mesure de leur expression g nique dans le monocyte 130 Les donn es de cette tude que j ai utilis es pour mon travail de th se sont issues 81 6 2 2 Chapitre 6 Les donn es pid miologiques utilis es des pr l vements et mesures effectu s sur les 3 300 premiers sujets recrut s Leur g notypage pour environ 900 000 SNPs a t effectu l aide de la puce ADN Affymetrix 6 0 tandis que l expression de plus de 35 000 g nes provenant de cellules monocytaires a t mesur pour environ la moiti de ces individus gr ce quelques 48 000 sondes contenues dans la puce ARN Illumina HT 12 v3 Seuls les individus d origine europ enne et pour lesquels les donn es de g notypage et d expression taient disponibles ont t utilis es dans ce travail de th se si bien qu au final mes analyses ont port sur 750 hommes et 717 femmes Crit res de qualit des sondes et SNPs Seules les sonde
245. s Le filtrage effectu sur les SNPs a consist pour cette tude a ne garder que ceux dont la p value associ e au test d Hardy Weinberg tait sup rieure 107 dont la fr quence de l all le mineur d passait les 1 et dont le taux de r ussite lors du g notypage tait sup rieur a 99 pour chaque chantillon Biomarqueurs Un biomarqueur est une caract ristique mesurable li e a un tat biologique Par exemple les individus ayant un haut niveau plasmatique de facteur VIII ont des plus grands risques de thrombose veineuse La mesure du taux de facteur VIII est donc un biomarqueur de cette maladie En plus des donn es g notypiques l tude MARTHA inclut pour certains individus cas les mesures de certains biomarqueurs de la maladie 145 dont un bon nombre sont li s des prot ines participant la cascade de coagulation du sang illustr e par la figure 6 1 79 Chapitre 6 Les donn es pid miologiques utilis es le dosage de la prot ine C PC La prot ine C est une prot ine jouant un r le important dans la r gulation de la coagulation du sang le dosage de la prot ine S PS La prot ine S est une prot ine agissant sur la prot ine C l Agkistrodon contortrix venum test normalis ACVN C est une mesure du ratio entre le temps de coagulation en pr sence d un produit le venin de l Agkistrodon contortrix une esp ce de serpent activateur de la prot ine C et en absence de
246. s org cf p 163 Personal Genome Project Participant profiles https my personalgeno mes org users cf p 163 Personal Genome Project Study Guide http www pgpstudy org cf p 163 Promethease SNPedia http snpedia com index php Promethease cf p 162 PubMed http www ncbi nlm nih gov pubmed cf p 100 ReMOAT http remoat sysbiol cam ac uk cf p 82 Warrior Roots http www warriorroots com cf p 162 Sites web autres 163 Your DNA Song http www yourdnasong com cf p 162 135 136 ticle 1 A genome wide search for common SNP x SNP interaction on the risk of venous thrombosis En cours de r vision dans le journal BMC Medical Genetics 137 138 RESEARCH ARTICLE A genome wide search for common SNP x SNP interactions on the risk of venous thrombosis Nicolas Greliche Marine Germain Jean Charles Lambert William Cohen Marion Bertrand Anne Marie Dupuis Luc Letenneur Mark Lathrop Philippe Amouyel 8 Pierre Emmanuel Morange David Alexandre Tr gou t Abstract Background Venous Thrombosis VT is a common multifactorial disease with an estimated heritability between 35 and 60 Known genetic polymorphisms identified so far only explain 5 of the genetic variance of the disease This study was aimed to investigate whether pair wise interactions between common single nucleotide polymorphisms SNPs could exist and modulate
247. s tant annot es comme ne contenant pas de SNPs et ayant un score de qualit dit perfect d apr s ReMOAT 6 161 Reannotation and Mapping of Oligonucleotide Arrays Technologies ont t conserv es pour l analyse En ce qui concerne le filtrage au niveau des SNPs celui ci a consist ne conserver que les SNPs au taux de g notypage r ussi sup rieur 98 situ s sur les chromosomes autosomaux dont la fr quence de l all le mineur tait sup rieure 1 et la p value associ e au test d Hardy Weinberg tait sup rieure 1074 C est tude principale sur laquelle je me suis appuy pour rechercher des polymorphismes li s aux microARNs qui pourraient seuls ou en interaction avec d autres polymorphismes agir sur les expressions de nos g nes L tude Cardiogenics L tude Cardiogenics est issue du projet europ en du m me nom financ par le 6 me programme cadre pour la recherche et le d veloppement technologique FP6 Ce projet r sulte de la collaboration de 15 partenaires europ ens et a pour objectif de d couvrir de nouveaux variants g n tiques associ s aux cardiopathies coronariennes afin de mieux comprendre les m canismes impliqu s dans cette maladies et ainsi aider au d veloppement de nouveaux traitements 142 Au contraire de tude GHS l tude Cardiogenics est une tude cas t moins et r sulte ainsi du regroupement de deux chantillons Le premier est compos de 370 sujets g s d
248. s Genetics 156 297 304 2000 cf p 14 Nossent A Y Hansen J L Doggen C et al SNPs in MicroRNA Binding Sites in 3 UTRs of RAAS Genes Influence Arterial Blood Pressure and Risk of Myocardial Infarction American journal of hypertension 2011 cf p 101 Oudot Mellakh T Cohen W Germain M et al Genome wide association study for plasma levels of natural anticoagulant inhibitors and protein C anticoagulant pathway the MARTHA project British journal of haematology 157 230 9 2012 cf p 79 Par G Cook N R Ridker P M et al On the use of variance per genotype as a tool to identify quantitative trait interaction effects a report from the Women s Genome Health Study PLoS genetics 6 1000981 2010 cf p 60 108 129 Bibliographie 89 90 91 92 93 94 95 96 97 98 99 100 130 Pearson K On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that can be reasonably supposed to have arisen from Random Sampling Philosophical Magazine 50 157 175 1900 cf p 45 62 Pruitt K D Tatusova T Brown G R et al NCBI Reference Sequences RefSeq current status new features and genome annotation policy Nucleic acids research 40 D130 5 2012 cf p 101 Purcell S Neale B Todd Brown K et al PLINK a tool set for whole genome association and population b
249. s 16841344 184653963 1s300555 3 8210 6 28 10 1 12 10 RFPL1 22 ILMN_ 1797383 rs 13053624 hs a mir 1236 6 15403569 1s550513 1s 13053817 7 89 10 3 22 10 1 14 10 GPRCSC 17 ILMN_2352090 152706527 hsa mir 941 1 20 1852427555 182427554 182706526 2 03 107 6 63 1012 1 30 10 POGZ 1 ILMN_ 2329309 183811409 hs a mir 4666 1 rs 16841344 rs4653963 rs3811409 2 24 10 1 12 107 1 53 10 RFPLI 22 ILMN_1797383 1513053624 hsa mir 4643 6 1516884450 1516884450 rs13053817 1 2810 3 22105 1 85 10 ASB1 2 ILMN_1683096 rs 1044561 hs a mir 3973 11 ts 262404 1516928224 rs 2334004 1 60 107 8 91107 2 06 10 RFPL1 22 ILMN_ 1797383 rs 13053624 hs a mir 3646 20 1511574730 1511574730 rs 13053817 1 70108 3 22105 2 45 10 ECE1 1 ILMN_1672174 1s 3026907 hs a mir 4460 5 1513171514 1513171514 159287035 2 47 107 9 07 1046 3 55 10 RFPLI 22 ILMN_1797383 1513053624 hsa mir 3674 8 157003112 156558541 1513053817 2 5510 3 22105 3 67 10 RFPL1 22 ILMN_ 1797383 rs 13053624 hs a mir 1205 8 189649959 189649959 1513053817 2 78108 3 22105 4 02 10 RFPL1 22 ILMN_1797383 1513053624 hsa mir 4656 7 1517829969 1317829969 rs13053817 2 8210 3 22 10 4 07 10 ECE1 1 ILMN_1672174 1s 3026907 hs a mir 4784 2 186709245 rs 12463867 189287035 3 22 107 9 07 1046 4 63 10 AAK1 2 ILMN_1880387 1513427243 hsa mir 3667 22 15135771 15135775 1513427243 7 2810 1 04107 4 80 10 RFPL1 22 ILMN_ 1797383 rs 13053624 hsa mir 604 10 152368392 153758371 1513053817 3 69 10 3 22 10 5 32 10 ECE1 il I
250. s H1 en revanche ce seuil aura tendance tre bien moins stringent En g n ral quelque soit la correction il n est pas rare que l on ne soit plus capable de d tecter les observations qui ne sont pas sous HO par peur de se tromper si on les affirme sous H1 C est le probl me du manque de puissance La puissance D finition La puissance d un test statistique est la probabilit de rejeter l hypoth se HO ie d avoir une statistique plus extr me que ce que l on attendrait lorsque l on n est effectivement pas sous HO Pour l analogie du loto pr c dente la puissance du test serait la probabilit de d tecter une quelconque tricherie au tirage du loto ie d tre tr s surpris du tirage lorsqu il y a r ellement eu tricherie Lorsque l on effectue de nombreux tests ou qu il y a de nombreuses personnes qui jouent au loto on sait que certaines statistiques seront tr s extr mes certaines personnes auront beaucoup de chances et il faudra que la statistique soit tr s extr me la tricherie soit tr s flagrante pour que l on arrive rejeter HO suspecter une tricherie Ainsi notre puissance de d tection diminue lorsque l on augmente le nombre de tests car du fait des corrections pour tests multiples cela diminue le seuil 68 5 1 Les corrections pour tests multiples Calcul de la puissance d un test Lorsque l on conna t la distribution d une statistique de test sous HO on peut
251. s de l enseignement Merci aussi Pazu Luffy Onizuka Shu Sangoku Vincent A E Ralph W et bien d autres qui m ont parfois fil des bons coups de boost Liste compl te non disponible sur demande Merci et bonne chance a vous Sheldon L Cooper Quinn R Mallory2 Eleanor A Arroway Emmett L Brown Samuel Beckett Gr ce nos avanc es sur la th orie des cordes nous sommes parvenus mettre au point une nouvelle machine multi t che permettant de voyager dans le temps dans l espace ainsi que dans toutes les dimensions et ce pr s de 88 miles l heure Malheureusement elle n a pour l instant qu une capacit de cinq places et vu que nous pouvons confirmer maintenant que les Mayas avaient raison pour ceux qui auraient d j oubli la phrase pr c dente nous avons cr une machine voyager un peu partout et notamment dans le temps nous avons souhait remercier les gens de cette plan te de leur BRIEF COMMUNICATIONS Pour finir je tiens remercier la personne qui est en train de lire ces lignes car elle a probablement eu un r le m me indirect dans ma th se Je tiens ce qu elle r alise l norme quantit de travail qui a t effectu e pour r aliser ces remerciements Apr s avoir bien r fl chi leur design pour limiter les ventuels probl mes d interpr tation j ai d planifier et organiser la collecte et le stockage de trois ann es de donn es J ai d nettoyer et filtrer ces donn
252. s param tres Les odds ratios L odds ratio OR est une mesure de l effet d une variable explicative sur une variable binaire que l on souhaite comprendre par exemple le ph notype malade non malade Pour un SNP ayant les all les A et T on peut d finir l odds ratio de l association entre le SNP et la maladie de la mani re suivante Si la probabilit d tre malade est p lorsque l on poss de l all le A et q lorsque l on poss de l all le T alors l odds ratio associ l all le A est a ite uv OR A a Si l all le A est a risque alors EF sera plus grand que 1 au contraire de ree LOR sera donc sup rieur a 1 Si par contre l all le A n est pas risque alors E sera sensiblement gal et POR sera proche de 1 Ce qui est int ressant avec cette mesure Cest que dans un mod le logistique le logarithme de l odds ratio associ une variable correspond au param tre estim associ a la variable Remarque le param tre estim associ au terme d interaction dont nous parlerons un peu plus tard n est en fait pas le logarithme d un odds ratio mais celui d un ratio d odds ratio Linterpr tation est cependant similaire et par souci de simplicit dans la suite du document j emploierai galement le terme d odds ratio pour d crire les mesures des associations impliquant des interactions Le mod le logistique est le mod le le plus utilis lo
253. s sondes fut identique celui de l tude GHS Pour ce qui est des SNPs afin d viter au maximum des probl mes ult rieurs d interpr tations seuls les SNPs autosomaux avec une fr quence all lique mineure sup rieure 1 un taux de succ s lors du g notypage d passant les 95 et pour lesquels la p value associ e au test d quilibre d Hardy Weinberg tait sup rieure 10 furent conserv s Cette tude ma servi pour la r plication des r sultats issus de l tude GHS 83 84 7 1 7 1 1 Chapitre 7 e de ph nom nes d interactions dans la maladie thromboembolique veineuse C est pas faux Perceval Kaamelott http www kaamelott com Les chapitres pr c dents mont permis d introduire les donn es et m thodes statistiques que j ai utilis es dans mes recherches de ph nom nes d interactions Les r sultats de ces travaux sont l objet des deux prochains chapitres En particulier dans ce chapitre apr s avoir bri vement introduit la maladie thromboembolique veineuse je donne les r sultats de mes recherches d interactions entre polymorphismes qui pourraient tre impliqu es dans cette pathologie Une partie des r sultats pr sent s ici a fait l objet d un article en cours de r vision et pour lequel je suis premier auteur 41 Motivations et strat gie de recherche Description de la maladie La thrombose veineuse est une maladie complexe touchant 1 2 personnes sur 1 000 chaqu
254. s tels qu une pond ration par la p value du test marginal de Levene voir chapitre pr c dent ou par les fr quences all liques La corr lation En statistique la corr lation est une mesure de la liaison qu il peut y avoir entre deux variables Si chaque fois que l on fait voluer une variable dans une direction une autre variable a tendance voluer aussi dans le m me sens alors ces deux variables sont corr l es Le d s quilibre de liaison par exemple est une forme de corr lation Il est d ailleurs tr s courant d utiliser le r pour quantifier la corr lation entre deux variables La corr lation entre les SNPs Une des sp cificit s des donn es g notypiques par rapport d autres types de donn es est que leurs variables notamment les SNPs sont potentiellement tr s nombreuses et parfois fortement corr l es entre elles Cette corr lation vient du d s quilibres de liaisons existant entre les polymorphismes et de l augmentation des capacit s des puces ADN qui a pour cons quence l inclusion dans les tudes de SNPs parfois tr s proches les uns des autres Cette corr lation est un avantage car elle nous permet de ne pas avoir g notyper l ensemble des polymorphismes de notre g nome Si un SNP n est pas sur notre puce ADN il est probable qu un SNP qui lui est proche y soit et puisse bien le repr senter Dans la suite du document lorsque j utiliserai un SNP d une puce pour repr
255. s107822 du microARN hsa mir 219 1 Les miSNPs et 3utrSNPs ne 110 8 4 Recherche d interactions SNP SNP impliqu es dans la variabilit de l expression des g nes 1817349873 12278768 ee ui a ILMN 1683096 ee 0 04 0 83 crea 0 30 0 23 ae or eae pre IMN 1749070 Baer pe 0 29 8910 atid ea ss ILMN_1683096 eee ae 0 07 0 44 DIS ED D EMNIMSTAG7 Mois 16000905 025 1 0104 F0 Gg TMN 1743836 7221885 rooi00s2 002 053 es 4 i IMN 1683096 en Fe E m BDNE emis AMY gay omen OD S oo ox Sane Ds o IMN 1683096 156353 002 08 eo 007 044 FIGURE 8 9 R plication dans l tude Cardiogenics des interactions miSNP x 3utrSNPs d tect es dans l tude GHS sont ni sur la puce de GHS ni sur celle de Cardiogenics Cependant le 3utrSNP est bien repr sent par les proxySNPs rs3128923 dans GHS et rs213208 dans Cardiogenics alors que le miSNP est lui en fort d s quilibre de liaison avec les proxySNPs rs3117222 dans GHS et rs439205 dans Cardiogenics voir figure 8 10 Le miSNP et le 3utrSNP sont assez proches environ distants de 100 000 bases et leurs proxySNPs respectifs sont en l ger d s quilibre de liaison r 0 58 dans GHS et r 0 56 dans Cardiogenics HSD17B8 HLA DPA1 HLA DPB2 COL11A2 SLC39A7 hsa mir 219 1 Cri SE mm HLA DPB1 RXRB RING1 D LE rs1042448 rs3117222 rs3128923 rs439205 rs213208 Cardiogenics GHS Cardiogenics GHS Position 33 050 000 33 070 000 33 090 000 33
256. sed expression of LYX YEATS4 and NODI it was associated with decreased levels of CNTN6 CTRC September 2012 Volume 7 Issue 9 e45863 miRNA SNPs and Monocyte Gene Expression Table 1 Distribution of the number of 3utrSNPs or proxy in the 6 147 studied genes 3utrSNPs 1 2 3 4 5 7 8 9 10 11 12 13 14 18 per gene genes 3 435 1 438 670 313 138 35 17 7 4 5 1 1 2 1 Note that in some instances a genotyped SNP can serve as a proxy r gt 0 90 for several 3utr SNPs This explains why the total number of 3utr proxy SNPs that can be derived from this table 11 353 1x3 435 2x1 438 3 670 is slightly higher than the number of really studied SNPs 10 783 doi 10 1371 journal pone 0045863 t001 COPZ2 KRT9 LRRFIPI PCDHA6 ST5 and TRAF31P2 expres sion After adjusting for the best LYZ cis eSNP the association of rs317657 with LYZ expression still retained genome wide signif icance p 6 17x10 while the association with YEATS4 disappeared p 0 734 Table S1 According to the TargetScan bioinformatics tool 5 the position 648 to 654 of the 3 UTR LYZ region is predicted to be complementary at 8 bases with the hsa mir 1279 sequence This type of matching configuration called 8mer is usually considered to be a good prior for predicting potential targets of miRNA After adjusting for LYZ expression the trans association observed with rs317657 were reduced but remained highly significant p 3 88x10 p 1
257. si aux chercheurs une m thode puissante et rapide de fragmentation de l ADN L amplification en cha ne par polym rase Quelques ann es auparavant vers la fin des ann es 1950 Arthur Kornberg avait d couvert que lors de la division cellulaire l ADN se d double gr ce la copie de ses deux brins d ADN par ADN polym rase 67 En 1983 Kary Mullis eut l id e d utiliser cette enzyme pour augmenter artificiellement et rapidement le nombre de copies d un fragment d ADN Ce proc d fut appel amplification en cha ne par polym rase ou plus simplement PCR pour polymerase chain reaction 84 Avant les PCRs dans les ann es 1970 Stanley N Cohen et Herbert W Boyer avaient d j rendu possible la copie de l ADN par la technique d ADN recombinant 23 Cette technique consiste introduire un fragment d ADN dans la s quence d ADN d une cellule trang re afin d engendrer sa r plication de fa on naturelle dans ce corps tranger La PCR en est une alternative puissante qui est souvent utilis e par les chercheurs HTT le premier g ne de pr disposition localis Toutes ces avanc es permirent alors de fragmenter amplifier puis hybrider des s quences d ADN afin de les comparer et ainsi faciliter l identification de multiples polymorphismes C est ainsi que les cartes g n tiques purent se densifier en marqueurs et le premier g ne de pr disposition une maladie la maladie de 27 3 1 4
258. situer quelques uns sur la figure 2 repr sentant les gens qui m ont accompagn dans le bureau Je remercie donc Marie Lise que j ai remplac e pour emb ter David Viviane Monique passe partout DrDr Guillemette qui m a beaucoup aid barbujiller contrairement au lapin Je la remercie particuli rement pour son soutien durant la fin de ma th se et pour m avoir nourri Je remercie aussi Maria Sylvia Lynda Raja Soraya en petit pour pas me faire taper Tiphaine oudort plus beaucoup Sonia Karabatikina Sonia Lisandro Lopez Marie Bretonne Dr Raph qui je prouverai bient t une bonne fois pour toute le non sens de son dessert pr f r Je la remercie notamment de m avoir appris discuter avec tout le monde au monoprix ce qui me permet de faire attendre ceux qui viennent avec moi Je remercie aussi Dr Big Boss Master Statman Max grand vainqueur du concours de long vit mes c t s dans le fi Visite de Raph Tasse de Vinh repasse de temps en temps bureau voir figure 2 et qui fut toujours partant pour me suivre dans mes conneries et inversement Merci Chili con Ricardo le nettoyeur Farzin Benzebaby foot Brown Cheese Linn et Jessica O Comon Broccoli merci pour tout Jess sans oublier Cedric Sana Emilien et les super stagiaires Caroline Isabelle Antoine Charlotte Santy Bathilde et H l ne N h sitez pas a passer me voir mais n oubliez pas les pains au chocolat cette fois Color Picke
259. sm in age related macular degeneration Science New York N Y 308 385 9 2005 cf p 34 Koeleman B Reitsma P Allaart C et al Activated protein C resistance as an additional risk factor for thrombosis in protein C deficient families Blood 84 1031 1035 1994 cf p 87 Krek A Griin D Poy M N et al Combinatorial microRNA target predictions Nature genetics 37 495 500 2005 cf p 7 127 Bibliographie 64 Krol J Loedige I amp Filipowicz W The widespread regulation of microRNA 65 66 67 68 69 70 71 72 73 74 75 128 biogenesis function and decay Nature reviews Genetics 11 597 610 2010 cf p 7 Lango Allen H Estrada K Lettre G et al Hundreds of variants clustered in genomic loci and biological pathways affect human height Nature 467 832 8 2010 cf p 38 Lee R C Feinbaum R L amp Ambros V The C elegans heterochronic gene lin 4 encodes small RNAs with antisense complementarity to lin 14 Cell 75 843 54 1993 cf p 7 Lehman I R Bessman M J Simms E S et al Enzymatic synthesis of deoxyribonucleic acid I Preparation of substrates and partial purification of an enzyme from Escherichia coli The Journal of biological chemistry 233 163 70 1958 cf p 27 Lelandais G Vincens P Badel Chagnon A et al Comparing gene expression networks in a multi dimensional space to extract similarities and di
260. sms with schizophrenia Am J Med Genet 54 372 377 Sultan M Schulz MH Richard H Magen A Klingenhoff A et al 2008 A global view of gene activity and alternative splicing by deep sequencing of the human transcriptome Science 321 956 960 Marioni JC Mason CE Mane SM Stephens M Gilad Y 2008 RNA seq an assessment of technical reproducibility and comparison with gene expression arrays Genome Res 18 1509 1517 Huntzinger E Izaurralde E 2011 Gene silencing by microRNAs contributions of translational repression and mRNA decay Nat Rev Genet 12 99 110 Shah S Nelson CP Gaunt TR van der Harst P Barnes T et al 2011 Four Genetic Loci Influencing Electrocardiographic Indices of Left Ventricular Hypertrophy Circ Cardiovasc Genet Stacklies W Redestig H Scholz M Walther D Selbig J 2007 pcaMethods a bioconductor package providing PCA methods for incomplete data Bioinfor matics 23 1164 1167 Schunkert H Konig IR Kathiresan S Reilly MP Assimes TL et al 2011 Large scale association analysis identifies 13 new susceptibility loci for coronary artery disease Nat Genet 43 333 338 Benjamini Y Hochberg Y 1997 Multiple hypotheses testing with weights Scand J Stat 24 407 418 Dalmasso C Genin E Tregouet DA 2008 A weighted Holm procedure accounting for allele frequencies in genomewide association studies Genetics 180 697 702 Tregouet DA Garelle V 2007 A new JAVA interface implementation of THESIAS
261. spective studies of disease J Natl Cancer Inst 1959 22 719 748 Tregouet DA Garelle V A new JAVA interface implementation of THESIAS testing haplotype effects in association studies Bioinformatics 2007 23 1038 1039 Gauderman WJ Sample size requirements for association studies of gene gene interaction Am J Epidemiol 2002 155 478 484 Demidenko E Sample size and optimal design for logistic regression with binary interaction Stat Med 2008 27 36 46 144 ticle 2 Comprehensive exploration of the effect of miRNA SNPs on monocyte gene expression PLoS One 2012 7 9 e45863 145 146 OPEN ACCESS Freely available online PLOS one Comprehensive Exploration of the Effects of miRNA SNPs on Monocyte Gene Expression Nicolas Greliche Tanja Zeller Philipp S Wild Maxime Rotival Arne Schillert Andreas Ziegler Panos Deloukas Jeanette Erdmann Christian Hengstenberg Willem H Ouwehand 210 11 Nilesh J Samani Heribert Schunkert Thomas Munzel Karl J Lackner Fran ois Cambien Alison H Goodall Laurence Tiret Stefan Blankenberg David Alexandre Tr gou t gt the Cardiogenics Consortium 1 INSERM UMR_S 937 Pierre and Marie Curie University UPMC Paris 6 Paris France 2 Universit Paris Sud Paris France 3 Department of General and Interventional Cardiology University Heart Center Hamburg Hamburg Germany 4 Departments of Medici
262. spectives 115 9 1 Sur la recherche d interactions entre polymorphismes dans la thrombose veineuse 115 9 2 Sur la recherche de polymorphismes li s aux microARNs et leurs impacts sur l expression des g nes 117 Article 1 137 Article 2 145 pilogue 161 xviii 1 1 1 1 1 Chapitre 1 nement du vivant Et voici la viiiie la belle vie toute press e d clooore Il tait une fois la vie G n rique http youtu be mOpUKsMJYao Le but de ce chapitre est d introduire bri vement le fonctionnement de base du vivant dont l l ment essentiel est l ADN une grande mol cule qui contient les instructions pour la production et la r gulation de la production des prot ines LADN est a la base de chaque cellule vivante Structure de l ADN Tous les tres vivants que nous connaissons sont constitu s de cellules et celles ci ont toujours la m me structure fondamentale leur permettant d tre la plus petite unit autonome et capable de se reproduire En particulier les hommes ont des dizaines de milliers de milliards de cellules 113 chacune renfermant un noyau dans lequel r side 23 paires de chromosomes 22 paires de chromosomes autosomaux et une paire de chromosomes sexuels cf figure 1 1 Selon la phase du cycle cellulaire laquelle se trouve la cellule ces chromosomes sont form s d une unique ou de deux identiques immenses mol cules d a
263. ssible de calculer la borne inf rieure la borne asymptotique de la variance des estimations des param tres du mod le en prenant l inverse de Vinformation de Fisher et l on peut alors construire un des l ments de la statistique de Wald asymptotique 3 log V Y X E Ee da a Qui suit donc une loi normale de moyenne nulle et de variance 1 sous HO Quelques tests qui ne sont pas bas s sur des mod les Le test de Levene A quoi sert il Le test de Levene est un test permettant de d tecter des diff rences de variances entre plusieurs groupes Guillaume Par a sugg r que des diff rences de variances entre g notypes pour un ph notype quantitatif pouvaient tre un indicateur de la pr sence d une interaction entre ces g notypes et le ph notype 88 Nous avons utilis ce test pour pond rer voir chapitre 5 nos r sultats lors de notre recherche de ph nom nes d interactions entre polymorphismes li s aux microARNs voir chapitre 8 La statistique du test La statistique L du test de Levene se base sur les valeurs Di nj 2ij Vij o y j repr sente la valeur de la j ieme observation du groupe i pour le ph notype gt Vij n tudi et n le nombre d observation dans ce m me groupe i repr sente donc la i moyenne du ph notype pour le groupe i et z l cart absolu de la j ieme observation j du ph notype la moyenne du groupe L id e du test est que si les
264. ssieurs et autres une excellente lecture xiv fl che fl che d volution 4 fl che de fl che de d volution tape par tape ae globale grossissement description 27 N PM a es zZ _ Lou Th se de ouf Titre de ma th se rches de ph nom nes dans les maladies multifactorielles FIGURE 1 R gle adopt e dans le fl chage des graphiques Illustration par exemple de l volution du titre de ma th se XV xvi es matieres Le fonctionnement du vivant 1 1 L ADN est la base de chaque cellule vivante 1 2 Des g nes aux prot ines 1 3 Les microARNs des r gulateurs de la production de prot ines 1 4 Ce que renferme notte ADN 4 Lex caeca camii eee RE d s La variabilit g n tique 2 1 Les sources de variabilit g n tique 2 2 Les cons quences de cette variabilit g n tique 2 3 D finitions et caract ristiques li es la variabilit g n tique L pid miologie g n tique 9 L Rappel historique seie ea eaa Pe eee de St See A de 3 2 La recherche dinteractions pour tenter d expliquer l h ritabilit MANQUANT oto Se ees Rees oe NEN SESS Re eee ee Cee es Les tests statistiques 4 1 Introduction esena s aea hum eee ee Eee wee ee 4 2 Les diff rentes approches lt 4 4 3 4 544408 449 e649 89 40 4 3 Les mod les utilis s et estimation de leurs param tr
265. st ce que l on appelle les recombinaisons chromosomiques Les mutations et recombinaisons sont les deux sources de la variabilit de notre g nome cf figure 2 1 Les cons quences de cette variabilit g n tique Des individus uniques Cette variabilit g n tique permet chaque individu d avoir une s quence d ADN qui lui est propre et ainsi des prot ines et traits physiques uniques notamment lorsque ces diff rences apparaissent au sein des g nes Chez l homme deux individus 14 2 2 Les cons quences de cette variabilit g n tique cellule germinale Une mutation survenue dans une cellule germinale recombinaison chromosomique peut se transmettre aux g n rations suivantes par les gametes vi FIGURE 2 1 Aper u des diff rentes tapes de la m iose Gr ce aux mutations qui surviennent dans les cellules germinales et aux recombinaisons chromosomiques qui s op rent lors de la m iose le mat riel g n tique de chaque gamete et donc de chaque individu devient unique ont environ 99 9 de leurs s quences d ADN en commun 124 Ceci repr sente un pourcentage de similarit important mais toutes ces similitudes laissent tout de m me des diff rences sur plusieurs millions de paires de bases qui participent a la diversit que l on peut observer au sein de notre esp ce telle que les diff rences de couleurs de silhouettes ou d aptitudes Cette variabilit g n
266. stique calcul e sous HO devrait avoir peu de chances d tre plus extr me que la statistique que l on a calcul e qui est sous H1 autrement dit la p value de notre test statistique aura une plus grande probabilit d tre faible que d tre forte voir figure 5 1 Maintenant si au lieu d tre sous H1 on est sous HO une statistique calcul e sous HO devrait avoir autant de chances d tre plus extr me que celle que l on a 71 Chapitre 5 La gestion des tests multiples P value 0 7 1 0 4 0 2 0 1 0 07 0 03 0 01 0 003 Lorsque l on est sous HO les probabilit s de voir des observations plus extr mes que celles qui HO proviennent de H1 on tendance a tre faibles Les p values sont faibles e e o o oo Exemples d observations auxquelles on peut s attendre sous H1 FIGURE 5 1 Distribution de la p value sous H1 calcul e C est dire que la p value de notre test devrait avoir les m me probabilit s d tre faible que forte En fait la p value de notre test a une distribution uniforme voir figure 5 2 P value 1 0 9 1 0 8 Lorsque l on est sous HO les probabilit s de voir ae des observations plus extr mes que celles qui 0 5 proviennent aussi de HO n ont pas tendance a 0 3 prendre certaines valeurs plut t que d autres HO 01 Les p values sont distribu es uniform m nt cco oo o o o Exemples d observations auxquelles on peut s attendre sous
267. sur un certain nombre de personnes h t rog nes en ce qui concerne le trait tudier On appelle ces caract ristiques des marqueurs g n tiques Lors de la reproduction les locus qui sont proches auront tendance moins subir de recombinaisons que ceux qui sont loign s De ce fait si l on observe que les individus similaires pour certains marqueurs partagent souvent le m me ph notype cela indique une certaine proximit de ces marqueurs aux locus impliqu s dans la variation du ph notype C est par ce biais la que l on a pu localiser des variations g n tiques impliqu es dans le caract re tudi 25 3 1 2 3 1 3 Chapitre 3 L pid miologie g n tique D couverte des premiers marqueurs g n tiques Avant que Oswald Avery Colin MacLeod et Maclyn McCarty ne d montrent en 1944 que ADN est le support de l information g n tique 5 les scientifiques savaient d j que l h r dit tait transmise par les chromosomes Ceci avait t d montr par Th odor Boveri au milieu des ann es 1880 et soutenu par Walter Sutton 117 pour donner la Boveri Sutton Chromosome Theory Peu apr s William Bateson et Reginald Punnett avaient galement pu montrer que certains caract res h r ditaires taient li s 9 ce qui contredisait ainsi la loi d ind pendance de Gregor Mendel 80 le fondateur de la g n tique Aussi partir de la description du ph nom ne d enjambement chromosomique crossing ov
268. t Pooled Odds ratio derived from a fixed effect model analysis using the inverse variance method as implemented in METAL None of the reported interactions demonstrated evidence for heterogeneity across GWAS samples p gt 0 05 for all homogeneity test pvalues rs2836978 serves as a proxy amp 1 for rs9981595 in the discovery GWAS mapping 130kb downstream the IRX3 locus the two SNPs interacting to modulate plasma FVIII levels As shown in Table 2 carriers of the rs9804128 G and rs4784379 A alleles were associated with the highest plasma FVIII levels compared to the three other alleles combinations At contrast these individuals were associated with 2 fold decreased in VT risk the frequency of the GA combination being 8 3 in controls and 4 6 in patients Table 2 Looking deeply to the diplotypes formed by these two SNPs revealed that patients carrying without any ambiguity the GA combination ie those carrying either the rs9804128 GG genotype and the rs4784379 A allele or the rs9804128 GA genotype and the rs4784379 AA genotype exhibited the highest plasma FVIII levels Table 3 Individuals ambiguous for the GA combination who are those heterozygotes at both rs9804128 and rs4784379 were at intermediate FVIII levels Table 3 To our knowledge this work is the first attempt to investigate at the genome wide scale the presence of interactive effects derived from common SNPs Despite the use of two large GWAS datasets th
269. t 107 Cardiogenics Study The present study included monocyte expression data from 758 individuals from European descent 363 patients with coronary artery disease and 395 unrelated healthy individuals Monocyte RNAs were isolated from whole blood using CD14 micro beads Miltenyi and expression profile was processed in a PLOS ONE www plosone org miRNA SNPs and Monocyte Gene Expression single center using the Z umina HumanRef 8 v3 beadchip array Illumina Inc San Diego CA containing 24 516 probes corre sponding to 18 311 distinct genes After hybridization array images were scanned using the Ilumina BeadArray Reader and probe intensities were extracted using the Gene expression module version 3 3 8 of the Illumina BeadStudio software version 3 1 30 Raw intensities were processed in R statistical environment using the Lumi and beadarray packages All array outliers were excluded and only arrays with high concordance in terms of gene expression measures pairwise Spearman correlation coefficients within each cell type gt 0 85 were included in the analyses Genomic DNA was extracted from peripheral blood leucocytes by standard procedures Qiagen Genome wide genotyping was carried out using one of two Illumina arrays the Sentrix Human Custom 1 2 M array and the Human 610 Quad Custom array Data from the two arrays was combined as described in 59 SNP analysis was restricted to autosomal SNPs with minor allele frequency gt
270. t Rev Genet 2009 10 392 404 9 Manolio TA Collins FS Cox NJ Goldstein DB Hindorff LA Hunter DJ McCarthy MI Ramos EM Cardon LR Chakravarti A et al Finding the missing heritability of complex diseases Nature 2009 461 747 753 10 Eichler EE Flint J Gibson G Kong A Leal SM Moore JH Nadeau JH Missing heritability and strategies for finding the underlying causes of complex disease Nat Rev Genet 2011 11 446 450 11 Auro K Alanne M Kristiansson K Silander K Kuulasmaa K Salomaa V Peltonen L Perola M Combined effects of thrombosis pathway gene variants predict cardiovascular events PLoS Genet 2007 3 e120 12 Pomp ER Doggen CJ Vos HL Reitsma PH Rosendaal FR Polymorphisms in the protein C gene as risk factor for venous thrombosis Thromb Haemost 2009 101 62 67 13 14 15 16 17 18 19 20 21 22 23 24 Tregouet DA Konig IR Erdmann J Munteanu A Braund PS Hall AS Grosshennig A Linsel Nitschke P Perret C DeSuremain M et al Genome wide haplotype association study identifies the SLC22A3 LPAL2 LPA gene cluster as a risk locus for coronary artery disease Nat Genet 2009 41 283 285 Smith NL Heit JA Tang W Teichert M Chasman DI Morange PE Genetic variation in F3 tissue factor and the risk of incident venous thrombosis meta analysis of eight studies J Thromb Haemost 2012 10 719 722 Oudot Mellakh T Cohen W Germain M Saut N Kallel C Zelenika D
271. t cis eSNPs After adjusting for the effect of the best cis eSNPs most miSNPs association vanished and only seven bold lines in Table S1 remained significant at p 7 73x10 Most of these 48 cis miSNPs associations are then likely due to LD between miSNPs and true cis eSNPs Nevertheless this must be investigated in greater depth as in several examples the corresponding miRNA was located within an intron of the associated gene and could therefore participate in the regulation of the host gene Of more interest are the nine genome wide significant associations that involved a miSNP located on a chromosome distinct from the one mapped by the associated gene so called trans associations referring to associations involving SNPs that are located more than 1Mb away or a distinct chromosome from the associated probe As shown in Table 2 the hsa mir 1279 SNP 131463335 tagged by the SNP rs317657 r 1 0 was associated in cis with expression of LYZ R 20 1 p 1 36x10 7 and YEATS4 R 13 1 p 1 3210 and in trans with expres sion of CNTNG6 R 3 3 p 1 16xX10 17 CTRC R 3 5 p 1 39x10 1 COPZ2 R 3 0 p 2 33x10 KRT9 R 4 5 p 1 15x107 LRRFIPI R 10 0 p 1 50x10 MODI R 2 1 p 7 25x10 PCDHA6 R 9 2 p 9 44x10 STS R 5 1 p 2 05x10 and TRAF3IP2 R 4 9 p 2 74x10 It is of note that whereas the rs317657 C allele with minor allele frequency 0 46 was associated with increa
272. t of genetic information we have collected through two French GWAS on VT 6 13 to conduct the first genome wide search for SNP x SNP interaction with respect to VT risk Methods This work was based on two French GWAS on VT the Early Onset Venous Thrombosis EOVT and the Marseille Thrombosis Association MARTHA studies These two studies have already been extensively described in 5 6 14 for EOVT and in 6 15 17 for MARTHA Studied populations and phenotype measurements Briefly in both studies VT patients were cases with a documented history of VT and free of well known strong genetic risk factors including antithrombin AT protein C PC or protein S PS deficiency homozygosity for FV Leiden or F2 20210A mutations and lupus anticoagulant In EOVT patients were selected to experience idiopathic VT before the age of 50 Controls were French individuals selected from two healthy populations SUVIMAX 18 and the Three City Study 19 for EOVT and MARTHA respectively The EOVT case control study included 419 patients and 1 228 healthy subjects while MARTHA was composed of 1 542 patients and 1 110 healthy subjects all the individuals being of European origin with the majority being of French descent Several key quantitative biomarkers of VT risk have been measured in MARTHA patients The detailed description of the corresponding measurements has been previously described in 15 for AT PC PS and the agkistrodon contortr
273. t pas cod s par la s quence d ADN mais qui peuvent cependant se transmettre Le principal exemple est celui la m thylation consistant en des modifications de conformation de la mol cule d ADN lorsque des groupements m thyles se fixent sur certaines bases azot es de type cyst ine 10 1 4 Ce que renferme notre ADN Diff rentes prot ines pour diff rents types cellulaires Toutes les cellules du pied ont exactement la m me s quence d ADN que les cellules de l oeil Ce qui change ce sont les quantit s de prot ines produites ay a partir de cette m me s quence d ADN C est cela gt Va qui permet au pied d avoir une fonction diff rente de celle de l oeil a En r alit comme dit pr c demment il peut y avoir de petites variations 11 Chapitre 1 Le fonctionnement du vivant Diversit au sein d un individu L ADN et donc le potentiel prot ique est le m me partout mais son expression d pend du type cellulaire Diversit au sein d une esp ce Les mutations et recombinaisons chromosomiques rendent les s quences d ADN l g rement mais syst matiquement diff rentes Il en est de m me pour les prot ines produites Diversit entre les esp ces Au fil du temps les s quences d ADN se diff rencient plus fortement jusqu engendrer des esp ces diff rentes FIGURE 1 6 La diversit du vivant 12 2 1 2 1 1 Chapitre 2
274. t son proxy miSNP r 1 0 Ce miSNP semble donc associ en trans avec les g nes CNTN6 p value 1 16 x 10712 CTRC 1 39 x 1071 COPZ2 2 33 x 10711 KRT9 1 15 x 1071 LRRFIPI 1 5 x 107 NOD1 7 25 x 107 PCDHA6 9 44 x 107 ST5 2 05 x 10718 et TRAF3IP2 2 74 x 10717 alors qu il est aussi associ en cis avec LYZ 1 39 x 10776 t YEATS4 1 32 x 10746 voir figure 8 3 Ces associations sont relativement fortes en t moignent les carr s du coefficient de corr lation R entre le proxy miSNP rs317657 et les expressions des g nes associ s allant d environ 2 pour l association avec NOD1 10 pour LRRFIP1 et m me 20 pour celle avec LYZ Les expressions 105 8 3 3 Chapitre 8 Cap sur la recherche de polymorphismes li s aux microARNs de LYZ YEATS4 et NOD1 sont augment avec la pr sence de l all le C de ce SNP tandis qu elle fait d croitre les expressions des autres g nes cit s beta SE po beta SE Pe 0 03 0 004 1 3910 f 0 06 0 01 1 54105 0 05 0 004 1 5010 f 0 12 0 01 6 65 10 0 02 0 003 1 16102 f 0 04 0 01 7 5610 0 04 0 003 9 4410 f 0 10 0 01 26710 0 03 0 003 2 74107 0 06 0 01 5 23107 0 05 0 008 7 2510 0 12 001 7 8310 0 06 0 007 20510 0 22 0 02 2 5110 0 20 0 010 13610 NA NA NA 0 15 0 010 1 3210 0 19 002 3 27107 0 04 0 006 1 1510 f 0 11 002 1 1110 0 03 0 005 23310 0 10 0 01 2 0610 Probe G ne CHR D but Fin ILMN_1748730 CTR
275. te de la combinaison sous HO Cependant la combinaison la plus intuitive et la plus pertinente consiste souvent en une somme effectu e sur les observations Dans une telle situation la variabilit de chaque observation est en partie compens e par celle des autres observations et mesure que le nombre d observations augmente la somme effectu e tend avoir une distribution normale voir figure 4 2 C est le th or me central limite Vous pouvez voir une petite illustration de ce ph nom ne en feuilletant rapidement le coin en bas droite de ce document Pour toutes les pages num rot es k partir de la table des mati res le dessin du coin bas droit repr sente la distribution de la somme de k variables distribu es selon la distribution pr sent e la page num rot e 1 mesure que l on s approche de la fin du document la distribution se rapproche clairement d une distribution normale De tr s nombreux tests se basent sur cette approximation C est en particulier sur ce th or me qu est bas le test de Wald 126 qui est utilis dans la plupart des analyses effectu es dans cette th se et que je d cris en section 4 4 FIGURE 4 2 Distribution normale de moyenne 0 et de variance 1 distribution estim e empiriquement Enfin si l on est capable de simuler des observations sous HO on peut alors simuler la statistique sous HO et ainsi estimer sa distribution En pid miologie g n tique il est s
276. tes les valeurs que peut prendre une variable Variance La variance est une mesure de la variabilit d une variable Plus pr cis ment si x est une variable et E x est son esp rance alors la variance de x est esp rance du carr des carts entre x et E x Les diff rentes approches Comment combiner des observations Dans un test statistique on souhaite donc trouver une combinaison des observations qui discrimine bien les hypoth ses Il y a deux fa ons de proc der directement On peut essayer de trouver directement une combinaison qui permet de bien diff rencier les hypoth ses Par exemple dans l exemple du pile ou face le maximum du nombre de pile et du nombre de face semble tre une bonne statistique Une personne qui triche aura tendance obtenir une statistique lev e contrairement une personne qui ne triche pas Cette fa on de combiner est la base de la plupart des tests d velopp s Parmi les plus connus on peut ainsi citer le t test 115 le test du y d ind pendance 89 ou encore les tests de L vene 69 et d Hardy Weinberg 46 qui sont d crits dans la section 4 5 en utilisant un mod le On peut aussi essayer de proposer un lien entre les observations dont les param tres varient en fonction de nos hypoth ses C est ce que l on appelle un mod le Par exemple on pourrait dire que la probabilit d obtenir pile est gal 0 5 plus un param tre a qui vaut z ro si l
277. testing haplotype effects in association studies Bioinformatics 23 1038 1039 September 2012 Volume 7 Issue 9 e45863 toi qui m as feuillet jusqu ici et qui esp rais que ce soit fini 159 160 pilogue Marin Shadok Quand on ne sait pas o l on va il faut y aller et le plus vite possible Les Shadoks http www lesshadoks com Vers une disponibilit des donn es g nomiques a la communaut non scientifique Au chapitre 3 j ai expliqu comment les avanc es technologiques ont pu fournir aux chercheurs les donn es leur permettant d identifier certains polymorphismes de pr disposition aux maladies g n tiques Depuis la fin des ann es 2000 ces avanc es permettent d sormais galement la communaut non scientifique d avoir acc s ce genre de donn es pour des fins plus ou moins s rieuses S quen age et g notypage personnalis Si la communaut scientifique s quence d sormais r guli rement des individus afin notamment de rechercher des variants rares pouvant expliquer la survenue de certaines maladies jusqu maintenant tr s peu de personnes se sont personnellement faites s quenc es Le registre mondial des g nomes personnels en reporte 56 au moment o j cris ce document dont hormis les pionniers Craig Venter ou James Watson quelques c l brit s non scientifiques comme Glenn Close Desmond Tutu ou Henry Louis Gates 152 En revanche de plus en plus d entrepris
278. the genomic sequence of miRNAs and SNPs located in the PUTR gene regions that could participate in monocyte gene expression This search for interactions was preceded by a genome wide investigation of miSNPs effect on monocyte expression to assess whether miSNPs could influence gene expression in particular through trans regulation These investigations were conducted in the Gutenberg Health Study where the extensive genome wide study of marginal SNP associations with monocyte expressions had previously been reported and the results stored in a publicly available resource 23 and we replicated the significant findings in the Cardiogenics study Our survey of marginal miSNP effect has pointed out the hsa mir 1279 miRNA mapping to chromosome 12q15 as a candidate regulator of 10 genes in monocytes Indeed we observed that the hsa mir 1279 rs1463335 tagged by rs317657 or rs1463335 was Table 5 Replication in Cardiogenics of the miSNPs x 3utrSNPs detected in Gutenberg Health Study MiSNP x rs17349873 rs107822 rs257095 rs5750504 rs6963819 rs262404 rs2284385 rs257095 3utrSNP rs2278768 rs1042448 rs2278768 rs1894644 rs10473 rs1044561 rs6060539 rs1044561 miRNA hsa mir 3119 1 hsa mir 219 1 hsa mir 4636 hsa mir 659 hsa mir 490 hsa mir 3973 hsa mir 4755 hsa mir 4636 CHR 1 6 5 22 7 11 20 5 Gene ASB1 HLA DPB1 ASB1 H1FO MXRA7 ASB1 RBM12 ASB1 CHR 2 6 2 22 7 2 20 2 Probe ILMN_1683096 ILMN_1749070 ILMN_1683096 I
279. the risk of VT Methods A genome wide SNP x SNP interaction analysis on VT risk was conducted in a French case control study and the most significant findings were tested for replication in a second independent French case control sample The results obtained in the two studies totaling 1 961 cases and 2 338 healthy subjects were combined into a meta analysis Results The smallest observed p value for interaction was p 6 00 10 11 but it did not pass the Bonferroni significance threshold of 1 69 10 12 correcting for the number of investigated interactions that was 2 96 1010 Among the 41 suggestive pair wise interactions with p value less than 10 8 one was further shown to involve two SNPs rs9804128 IGFS21 locus and rs4784379 IRX3 locus that further demonstrated significant interactive effects p 4 83 10 5 on the variability of plasma Factor VIII levels a quantitative biomarker of VT risk in a sample of 1 091 VT patients Conclusion This study the first genome wide SNP interaction analysis conducted so far on VT risk suggests that common SNPs are unlikely exerting strong interactive effects on the risk of disease Background Venous Thrombosis VT is a common complex disease affecting 0 2 of individuals a year VT includes deep vein thrombosis and pulmonary embolism the latter being characterized by a one year mortality rate of 10 excluding patients with malignancies 1 As a complex trait VT is considered as resultin
280. tion sous HO en faisant des permutations et donc sans avoir besoin de conna tre th oriquement la distribution si F est une fonction de r partition on peut estimer la distribution sous HO de X F p value par des permutations voir chapitre pr c dent S lectionner et pond rer des tests Une autre piste pour augmenter la puissance de nos tests consiste a effectuer une s lection sur ces tests Cela permet de r duire le nombre de tests et les corrections pour tests multiples S lection selon la p value Etant donn le grand nombre de tests qu impliquent les recherches d interaction les chercheurs se limitent souvent a des recherches d interaction entre sous ensemble de SNPs notamment les SNPs qui ressortent les plus significatifs en analyse simple sans interaction En fait dans le chapitre 7 je montre que cette m thode de s lection nest pas forc ment optimale d un point de vue statistique En revanche il est vrai que d un point de vue biologique s il y a une interaction entre deux l ments qui impacte une maladie on peut alors s attendre a ce que ces l ments pris s par ment aient aussi une influence sur la pathologie Par contre s il existe des ph nom nes de pures interactions sans apparents effets marginaux ceux ci ne pourront tre d tect s Pond ration Une autre m thode qui peut permettre de r duire les corrections pour tests multiples ou en tout cas faire ressortir certains t
281. tions d une seule paire de bases ne prenant que deux formes et appel es SNP pour Single Nucleotide Polymorphism Insertions d l tions et r p titions de bases nucl otidiques Parfois une variation g n tique peut consister en la suppression ou l addition d un ou de plusieurs nucl otides On parlera alors d insertion et de d l tion Lors de la recombinaison chromosomique l change du mat riel g n tique entre les deux chromosomes d une m me paire s effectue au niveau de s quences similaires Aussi il n est pas rare qu en des endroits du g nome constitu s de s quences r p t es les recombinaisons ne s effectuent pas exactement aux m mes locus 1 C est le grand nombre de paires de bases de notre g nome qui fait qu un taux de mutations m me faible permet au final d observer un relativement grand nombre de diff rences entre les individus 2 Le pluriel de locus est loci en latin comme me le faisait remarquer mon directeur de th se Cependant j ai pris parti ici de suivre les suggestion d Albert Jacquard 54 estimant qu tant adopt 18 2 3 4 2 3 D finitions et caract ristiques li es a la variabilit g n tique sur les deux chromosomes r sultant en des insertions et d l tions des s quences r p t es Il en r sulte des variations du nombre de copies de ces s quences r p t es au sein de la population On appelle CNV pour Copy Number Variation ce type de polymor
282. uis compar s un compos de patients porteurs de la maladie les cas et l autre de sujets seins les t moins mais similaires par ailleurs eux individus cas 3 Dans les tudes de cohorte on observe les volutions au cours du temps du ph notype tudi et des autres caract ristiques mesur es sur un ensemble d individus recrut al atoirement Les tudes de cohortes sont tr s utilis es pour d terminer les causes g n tiques de certaines maladies fr quentes comme par exemple le cancer du sain 25 33 3 2 3 2 1 Chapitre 3 L pid miologie g n tique ph notype On arrive donc avec les analyses d associations a une localisation plus fine des variants causaux La contrepartie est que ces tudes n cessitent une forte densit de marqueurs ce qui limitait jusqu au milieu des ann es 2000 leur utilisation a de petites r gions du g nome Les tudes d associations et d expressions en g nome entier Cependant augmentation rapide des capacit s en marqueurs des puces ADN passant de quelques centaines plusieurs centaines de milliers de polymorphismes a permis partir de 2004 la r alisation des premi res tudes d associations en g nome entier commun ment appel es GWAS pour Genome Wide Association Study 61 Celles ci n ont alors cess de se multiplier comme on peut le voir sur la figure 3 6 Lune des plus remarquables est peut tre la GWAS publi e par le Wellcome Trust Case Contro
283. umaines 24 Elle y disait notamment que le sujet tait tr s vaste et qu il tait n cessaire de passer par plusieurs revues de litt rature pour avoir une vision d ensemble des m thodes existantes Depuis il y a eu une explosion de nouvelles m thodes et il n est clairement pas possible de ne serait ce que de donner une vue de l ensemble des m thodes de d tection d interactions g ne g ne 112 On peut cependant lister quelques unes des m thodes des plus populaires La m thode classique La m thode que je qualifierai de classique est celle que nous avons utilis e Elle consiste construire un mod le de r gression lin aire ou logistique suivant si le ph notype est quantitatif ou binaire dans lequel on inclut un terme d interaction le plus souvent entre deux polymorphismes On estime alors le param tre associ l interaction avant de 53 Chapitre 4 Les tests statistiques d terminer si ce param tre peut tre consid r comme tant diff rent de z ro On se demande si l estimation obtenue aurait pu arriver si l interaction n avait aucun effet sur le ph notype tudi Les m thodes random forests Les m thodes du type random forest consistent a chercher des arbres de d cisions Un premier polymorphisme est s lectionn al atoirement et s pare les individus en deux groupes suivant leur g notype Pour chaque groupe un second polymorphisme est s lectionn qui va s pare
284. un caract re observable 16 2 2 Les cons quences de cette variabilit g n tique Mucoviscidose Diab te de type 1 Schizophrenie Trouble bipolaire Ob sit Maladie d Alzheimer Anorexie mentale Alcoolisme Maladies cardio vasculaires Cancer de la prostate Cancer du sein Accident vasculaire c r bral Asthme Maladie de Parkinson Diab te de type 2 Cancer des testicules Sciatique Cancer du poumon Leuc mie Couleur des yeux Cheveux boucl s Taille Indice de masse corporelle Long vit EN 34 53 EEE 42 DEN 25 56 RE 32 DEN 30 DEN 25 30 DEN 26 RS 25 DEN 20 Eu 8 11 EEE 98 EEE 85 95 EE 5 1 RE 5 1 DEN 26 Source SNPedia http snpedia com index php Heritability FIGURE 2 2 Estimations de l h ritabilit de quelques traits communs ou pathologiques amp K CRE prot ine fonctionnelle variation dans l ADN retrouv e au niveau de l ARN nt te prot ine non fonctionnelle o Ip FIGURE 2 3 Une mutation dans la s quence codante peut engendrer la formation d une prot ine non fonctionnelle causant l apparition d une maladie 17 2 3 2 3 1 2 3 2 2 3 3 Chapitre 2 La variabilit g n tique D finitions et caract ristiques li es la variabilit g n tique Quelques d finitions Lorsque la s quence d ADN un endroit du g nome que l on appelle un locus peut prendre plusieurs formes au sein d
285. unders M A Liang H amp Li W H Human polymorphism at microRNAs and microRNA target sites Proceedings of the National Academy of Sciences of the United States of America 104 3300 5 2007 cf p 120 Articles livres th ses 101 102 103 104 105 106 107 108 109 110 112 113 114 Schadt E E Turner S amp Kasarskis A A window into third generation sequencing Human molecular genetics 19 R227 R240 2010 cf p 32 Schena M Shalon D Davis R W et al Quantitative monitoring of gene expression patterns with a complementary DNA microarray Science New York N Y 270 467 70 1995 cf p 28 Schunkert H Konig I R Kathiresan S et al Large scale association analysis identifies 13 new susceptibility loci for coronary artery disease Nature genetics 43 333 8 2011 cf p 82 Seitz H Redefining microRNA targets Current biology CB 19 870 3 2009 cf p 121 Sherry S T Ward M H Kholodov M et al dbSNP the NCBI database of genetic variation Nucleic acids research 29 308 11 2001 cf p 32 102 Shi D Li P Ma L et al A Genetic Variant in pre miR 27a Is Associated with a Reduced Renal Cell Cancer Risk in a Chinese Population PloS one 7 e46566 2012 cf p 100 Sidak Z Rectangular confidence regions for the means of multivariate normal distributions Journal of the American Statistical Association 1967 cf p 67
286. urce Warrior Roots http www warriorroots com S Source GeneGroove http www genegroove com FIGURE 9 1 LADN peut aussi tre utilis pour faire de l art en haut gauche faire de bonnes rencontres en haut droite conna tre ses anc tres guerriers en bas gauche ou faire de la musique sur iPhone en bas droite 162 Des donn es qui deviennent publiques Il semble aussi que nous nous dirigions peu a peu vers une diffusion des donn es de g notypage et de s quencage a la communaut scientifique voire le grand public en t moignent les nombreuses initiatives qui promeuvent l open data pour ce genre de donn es Le Projet G nome Personnel est une longue et large tude dont le but est de s quencer puis de rendre publiques les s quences et informations m dicales de 100 000 volontaires qui auront auparavant pass un test permettant de v rifier leurs connaissances g n tiques et leur conscience des risques engendr s en rendant ce genre de donn es disponibles sur internet 156 158 Au moment de l criture de la th se l tude est compos e de 2 140 individus anonymes pour la plupart Les donn es g notypiques de 278 d entre eux sont d j rendues publiques tout comme les s quences g n tiques compl tes de 37 personnes 157 Consent to Research est un autre projet dont le but est de collecter et rendre publiques des donn es de volontaires en s assurant que ceux ci aient
287. vement d velopp chacun des points en gras dans un contexte global je les aborderai plus sp cifiquement dans le contexte de mon sujet de th se Quelques termes utilis s dans la suite de ce chapitre Hypoth ses Dans un test statistique on a toujours deux hypoth ses hypoth se appel e HO qui est notre hypoth se par d faut et l hypoth se appel e H1 qui est l hypoth se alternative vers laquelle on penchera si HO ne nous semble pas correcte Statistique Le r sultat num rique d une combinaison des observations s appelle une statistique Distribution D terminer les valeurs que la statistique peut prendre et avec quelles fr quences revient en conna tre sa distribution Lorsque la distribution est bien d termin e on peut aussi parler de loi de distribution Mod le statistique Un mod le statistique consiste en une supposition de forme de lien entre diff rentes variables o la force du lien est int gr e dans des param tres Ce sont ces param tres qui diff rencient donc les diff rentes hypoth ses int gr es dans le mod le Lorsque le mod le consiste expliquer une variable en particulier comme la survenue d une maladie ou le niveau d expression d un g ne on utilise plus pr cis ment le terme mod le de r gression Tous les mod les d crits dans ce document sont de ce type 44 4 2 4 2 1 4 2 Les diff rentes approches Esp rance Lesp rance est la valeur moyenne parmi tou
288. vers une s quence d ARN d un g ne codant qui est compl tement ou partiellement compl mentaire la s quence du microARN Le plus souvent la s quence d ARN cibl e par le microARN se situe dans la r gion 3 UTR de cet ARN cible mais parfois elle peut aussi se trouver dans sa partie S UTR ou dans sa phase ouverte de lecture ou ORF pour Open Reading Frame c est a dire dans des s quences potentiellement codantes pour des prot ines Si la compl mentarit entre le microARN et l ARN cible est parfaite la fixation du complexe donne lieu un clivage endonucl olytique ayant en g n ral pour cons quence de d grader fortement PARN cibl Si la compl mentarit est partielle le complexe RISC n a tendance d grader que partiellement l ARN par une r action exonucl olytique mais permet en g n ral d emp cher la traduction de PARN en prot ine Dans les deux cas la production de la prot ine est r duite par l action du microARN Importance des microARNs Le premier microARN identifi lin 4 a t d couvert en 1993 chez le ver Caenorhabditis elegans 66 Depuis on a trouv des microARNs chez la plupart des eucaryotes 8 et notamment chez l homme o ils forment une des classes de petits ARNs inhibiteurs les plus importantes avec 1600 membres identifi s au moment de l criture de ce document d apr s miRBase la base de registre des microARNs 43 L influence globale des microARNs sur notre organisme n
289. vived multiple testing correction were tested for replication in an independent sample of 758 individuals with both monocyte gene expression and genotype data In both studies the hsa mir 1279 rs1463335 was found to modulate in cis the expression of LYZ and in trans the expression of CNTN6 CTRC COPZ2 KRT9 LRRFIP1 NOD1 PCDHA6 ST5 and TRAF3IP2 genes supporting the role of hsa mir 1279 as a regulator of several genes in monocytes In addition we identified two robust miSNPs x 3utrSNPs interactions one involving HLA DPB1 rs1042448 and hsa mir 219 1 rs107822 the second the H1F0 rs1894644 and hsa mir 659 rs5750504 modulating the expression of the associated genes As some of the aforementioned genes have previously been reported to reside at disease associated loci our findings provide novel arguments supporting the hypothesis that the genetic variability of miRNAs could also contribute to the susceptibility to human diseases Citation Greliche N Zeller T Wild PS Rotival M Schillert A et al 2012 Comprehensive Exploration of the Effects of miRNA SNPs on Monocyte Gene Expression PLoS ONE 7 9 e45863 doi 10 1371 journal pone 0045863 Editor Andrea Vergani Children s Hospital Boston United States of America Received April 20 2012 Accepted August 22 2012 Published September 21 2012 Copyright 2012 Greliche et al This is an open access article distributed under the terms of the Creative Commons Attribution License which permits
290. vue la p value associ e au tirage est alors extr mement faible et il est possible qu elle associe un tel tirage une action divine ou quelque chose du genre Si elle est statisticienne elle aura simplement tendance penser que l on est sous H1 65 5 1 Chapitre 5 La gestion des tests multiples R sultat du tirage du SUPER LOTO du vendredi 13 Juillet 2012 5 bons num ros N CHANCE 0 Pas de gagnant 5 bons num ros 5 117 403 20 4 bons num ros 989 1 277 40 3 bons num ros 46571 11 70 2 bons num ros 687845 5 60 N CHANCE gagnant 1154692 grille 2 rembours e Pourtant il y a fort parier que si cette personne joue d autres num ros elle ne sera pas vraiment surprise d apprendre dans le journal que quelqu un a trouv les bons num ros il y a tellement de gens qui jouent qu il y en a forc ment certains qui ont de la chance et m me beaucoup de chance et si elle est statisticienne elle aura tendance penser qu elle n a pas assez d l ments pour rejeter HO e Effectuer plusieurs tests augmente les probabilit s de voir les combinaisons rares si bien qu il arrive souvent lorsque l on effectue un tr s grand nombre de tests que l on ne parvienne plus bien discriminer les hypoth ses Cela nous emm ne essayer de e combiner nos r sultats entre ou au sein de nos tudes e s lectionner ou pond rer les tests effectu s Les corrections pour tests mu
291. xample for rs11614913 located in the pri miRNA 196 It is hypothesized that this SNP affects miR 196a 2 expression alters the mIRNA target binding site and influences cancer risks 15 16 The existence of a SNP in the miRNA genomic sequence may create mature miRNA variants named isomiRs whose predicted targets could differ from the original miRNA s targets 17 In addition the expression of miRNAs is known to be regulated by transcriptional factors and by polymorphisms within the transcription factor binding sites which may then modulate miRNA expression 18 Finally the presence of a SNP in the miRNA target sequences could also influence the expression of the targeted mRNAs 19 20 As an example the rs58186 C allele located in the 3 UTR region of the AGTRI gene has been shown to decrease the efficiency of the binding of miR 155 to this gene leading to an increase in AGTRI expression 20 In this study we conducted a genome wide investigation of the effect of pri miRNA SNPs miSNPs on monocyte gene expression in a large epidemiological study of healthy subjects for whom genome wide monocyte gene expressions and genotype data have been collected as part of the Gutenberg Health Study 21 24 We also conducted a genome wide search for pair wise interac tions between miSNPs and SNPs located in 3 UTR regions 3utrSNPs We reasoned that such investigation could help to identify novel miRNA sensitive regulation of gene expression in

Download Pdf Manuals

image

Related Search

Related Contents

P-05Cアクセスポイントモードご利用の手引きPDFダウンロード  Lenovo 42T4911 rechargeable battery  平成 21 年5月8日 各 位 会 社 名 株式会社シイエム・シイ 代表者名 代表  TUBE BENDER  GE 3504502P327 User's Manual  Tarifs Gamme Business Connect  取扱説明書    urgent product recall medical device field correction  HDW-750P - Assistants Opérateurs Associés  

Copyright © All rights reserved.
Failed to retrieve file