Accès gratuit
Numéro
Med Sci (Paris)
Volume 29, Numéro 6-7, Juin–Juillet 2013
Page(s) 671 - 674
Section Dernière Heure
DOI https://doi.org/10.1051/medsci/2013296024
Publié en ligne 12 juillet 2013

Les nombreuses études d’association pangénomique (genome-wide association study, GWAS) réalisées chez l’homme ont à ce jour identifié un grand nombre de régions génomiques contribuant à la variation de traits phénotypiques (quantitative trait locus, QTL), notamment celle de phénotypes pathologiques. Cependant, les variants génétiques (single nucleotide polymorphisms - SNP, insertions, délétions, etc.) responsables de ces associations n’ont été identifiés que dans un petit nombre de cas [1]. Connaître ces variants causatifs permettrait d’identifier les gènes responsables, et pourrait mettre en lumière les mécanismes, potentiellement nouveaux, par lesquels ils génèrent la variation phénotypique observée.

Une approche expérimentale de l’étude des bases génétiques des phénotypes complexes réside dans l’utilisation de populations génétiquement hétérogènes issues du croisement de souches consanguines de rats ou de souris. Nous publions dans Nature Genetics [2] les résultats d’une étude du rat genome sequencing and mapping consortium couplant cartographie génomique fine chez 1 407 rats génétiquement hétérogènes et séquençage du génome des huit souches fondatrices de la population, pour permettre l’identification des variants de séquence responsables des QTL détectés. Dans cet article, les chercheurs du consortium ont identifié un grand nombre de variants et gènes contrôlant des phénotypes relatifs à des modèles d’anxiété, de la fonction cardiométabolique, de l’ostéoporose ou encore de la sclérose en plaques (Tableau I).

Tableau I.

Mesures recueillies dans la population « heterogeneous stock » de rats.

Identification de 355 régions génomiques associées à 122 phénotypes d’étiologie complexe

L’étude a été menée sur des rats d’une population hétérogène (heterogeneous stock - HS) issue de huit souches consanguines et obtenue par croisements non consanguins pendant soixante générations [3, 4]. En tout 1 407 rats ont été génotypés à 265 551 SNP, et 160 phénotypes ont été recueillis sur chaque animal (Tableau I). Un total de 355 QTL ont été identifiés pour 122 phénotypes (Figure 1), avec un intervalle de confiance médian de 4,5 Mb. Cette précision, obtenue en une seule étape de cartographie et sur l’ensemble du génome, est unique parmi les populations expérimentales de rats : elle résulte de l’accumulation d’un grand nombre d’événements de recombinaison au cours des soixante générations de croisements non consanguins. Les QTL identifiés pour chaque mesure expliquent en moyenne 42 % de la variation phénotypique d’origine génétique. Cela contraste avec la faible proportion de la variance phénotypique héritable expliquée par les QTL identifiés chez l’homme (souvent moins de 10 %), et s’explique notamment par l’absence, dans la population de rats, de variants rares dont les effets sont difficiles à détecter.

thumbnail Figure 1.

Localisation chromosomique des QTL significativement associés aux mesures recueillies chez les rats HS. Un code couleur indique les différentes catégories de phénotypes représentatifs de maladies complexes et de paramètres biochimiques (cholestérol, AST, ALT, créatinine, sodium, potassium, fer, etc.), immunologiques (proportions de cellules B, T, CD4+, CD8+, CD25+, etc.), et hématologiques (nombre de cellules éosinophiles, basophiles, concentration en hémoglobine, etc.).

Trente-huit phénotypes mesurés chez les rats HS et relatifs à plusieurs fonctions physiopathologiques avaient également été mesurés en 2006 en utilisant des protocoles expérimentaux identiques dans une population de souris HS [5]. La comparaison des résultats de ces deux études montre que des gènes différents contribuent à la variation phénotypique dans les populations HS de rat et de souris, suggérant qu’il est peu probable qu’un gène associé à un phénotype dans une population le sera aussi dans une autre.

Diversité génomique des souches fondatrices des rats HS

En parallèle de la cartographie des QTL, les génomes des huit souches consanguines dont sont issus les rats HS ont été séquencés avec une couverture d’environ 22x, indiquant que 7,2 millions de SNP, 633 000 insertions et délétions de petite taille, ainsi que 44 000 variants de plus grande taille ségrègent dans la population.

La divergence génétique entre les souches est relativement uniforme. Ces données de séquençage révèlent que les génomes des huit souches de rat montrent moins de diversité que les génomes des huit souches fondatrices de la population HS de souris [6] (7,2 millions SNP chez le rat, 10,2 chez la souris). Cette diversité est cependant plus homogène chez le rat : chez la souris, de long segments quasi identiques entre les huit souches alternent avec des segments très polymorphes ; dans les souches de rat, les segments quasi identiques sont moins longs et la diversité plus uniforme.

Identification des variants causatifs des QTL par intégration des données de séquençage

La population HS, parce qu’elle dérive de huit souches fondatrices connues et désormais séquencées, offre un avantage unique pour tester formellement si un variant de séquence pourrait être causatif de QTL [6, 7], en se fondant sur deux éléments. Tout d’abord, les chromosomes des rats HS sont des mosaïques des huit génomes fondateurs (les blocs de ces mosaïques sont appelés haplotypes), qui peuvent être reconstituées à partir des génotypes des rats HS et des génotypes aux mêmes positions des fondateurs. Les QTL peuvent donc être détectés par association (corrélation) entre variation haplotypique à un locus et variation phénotypique. Le second élément est la possibilité de déduire la séquence génomique de chaque rat HS en attribuant à chaque bloc de la mosaïque la séquence du fondateur correspondant (technique appelée imputation). Sous l’hypothèse qu’un QTL est du à un seul variant causatif, l’implication de chaque variant présent dans l’intervalle de confiance du QTL peut être évaluée en testant si la variation génotypique à ce variant explique l’effet du QTL aussi bien ou mieux que la variation haplotypique au QTL.

L’identification de variants satisfaisant ce critère (appelés variants candidats) permet de donner la priorité à certains gènes - ceux contenant des variants candidats - parmi tous ceux qui sont situés dans l’intervalle de confiance des QTL. Par exemple, l’intervalle de confiance d’un QTL pour la masse cardiaque englobait 82 gènes codant, mais un seul de ces gènes, Shank2, contenait des variants candidats (Figure 2a). L’implication de Shank2 dans le contrôle de la masse cardiaque n’avait jamais été suggérée. À 28 QTL, un seul gène contenait des variants candidats. À 13 autres QTL, il a pu être prédit, à partir de structures protéiques connues, que certains variants candidats codants avaient le potentiel de modifier la structure d’une protéine ou ses interactions avec d’autres molécules.

thumbnail Figure 2.

Variants candidats potentiellement causatifs au niveau d’un QTL. Un QTL pour la masse cardiaque sur le chromosome 1 (A) et un QTL pour le poids du corps sur le chromosome 3 (B) Sont présentés. La position sur le chromosome est indiquée sur l’axe horizontal et la significativité de l’association entre variation génétique et variation phénotypique, exprimée en -log10P, sur l’axe vertical. La ligne noire indique l’association avec les haplotypes, alors que chaque point bleu indique l’association avec un variant de séquence. Les points bleu foncé correspondent à des variants candidats, c’est-à-dire dont l’association avec le phénotype est au moins aussi significative que l’association la plus significative entre haplotypes et phénotype au QTL. Le panneau A est donc un exemple de QTL avec variants candidats, tous situés dans le gène Shank2, alors qu’aucun variant candidat n’existe au QTL présenté dans le panneau B.

Un unique variant causatif ne suffit souvent pas à expliquer le QTL

Pour une proportion importante (62 %) des QTL, il n’existe pas de variants candidats (candidat ayant la définition statistique donnée ci-dessus, Figure 2b). Nous avons testé plusieurs explications à cette observation, et avons notamment montré qu’un catalogue incomplet des variants de séquence ne peut, à lui seul, expliquer l’absence de variants candidats pour 62 % des QTL. Nous avons identifié un biais dans notre méthode de détection des QTL et révisé en conséquence notre estimation de la proportion de QTL sans variants candidats à 44 %. Finalement, nous avons réalisé des simulations qui suggèrent que la présence de multiples variants causatifs à un QTL pourrait expliquer l’absence de variants candidats. Des observations ponctuelles dans la littérature confortent cette hypothèse, qui n’avait jamais été testée jusqu’à présent sur génome entier et de nombreux traits complexes. La présence de multiple variants causatifs au niveau d’un QTL complique l’interprétation des signaux de GWAS et l’identification des variant causatifs.

Conclusions

L’étude menée par le rat genome sequencing and mapping consortium démontre le potentiel du couplage des études d’association pangénomique et des données de séquençage génomique pour l’identification des variants et gènes responsables de la variation phénotypique. L’étude, dont les résultats sont accessibles sur http://mus.well.ox.ac.uk/gscandb/rat/, a suscité de nombreuses hypothèses quant à l’étiologie de nombreux traits complexes d’importance biomédicale. La structure unique de la population HS a permis de montrer que l’association entre une région génomique et un phénotype ne peut, dans 44 % des cas, être expliquée par un unique variant causatif.

Liens d’intérêt

Les auteurs déclarent n’avoir aucun lien d’intérêt concernant les données publiées dans cet article.

Remerciements

The European Union’s Seventh Framework Programme (FP7/2007-2013) under grant agreement HEALTH-F4-2010-241504 (EURATRANS); The Wellcome Trust (090532/Z/09/Z, 083573/Z/07/Z, 089269/Z/09/Z, 057733/Z/99/B); Institute of Cardiometabolism and Nutrition (ICAN, ANR-10-IAHU-05).

Références

  1. Flint J, Mackay TF. Genetic architecture of quantitative traits in mice, flies, and humans. Genome research 2009 ; 19 : 723–733. [CrossRef] [PubMed] [Google Scholar]
  2. Baud A, Hermsen R, Guryev V, et al. Combined sequence-based and genetic mapping analysis of complex traits in outbred rats. Nat Genet 2013 ; 26 mai, doi: 10.1038/ng.2644. [Google Scholar]
  3. Hansen C, Spuhler K. Development of the National Institutes of Health genetically heterogeneous rat stock. Alcohol Clin Exp Res 1984 ; 8 : 477–479. [CrossRef] [PubMed] [Google Scholar]
  4. Johannesson M, Lopez-Aumatell R, Stridh P, et al. A resource for the simultaneous high-resolution mapping of multiple quantitative trait loci in rats: the NIH heterogeneous stock. Genome Res 2009 ; 19 : 150–158. [CrossRef] [PubMed] [Google Scholar]
  5. Valdar W, Solberg LC, Gauguier D, et al. Genome-wide genetic association of complex traits in heterogeneous stock mice. Nat Genet 2006 ; 38 : 879–887. [CrossRef] [PubMed] [Google Scholar]
  6. Keane TM, Goodstadt L, Danecek P, et al. Mouse genomic variation and its effect on phenotypes and gene regulation. Nature 2011 ; 477 : 289–294. [CrossRef] [PubMed] [Google Scholar]
  7. Yalcin B, Flint J, Mott R. Using progenitor strain information to identify quantitative trait nucleotides in outbred mice. Genetics 2005 ; 171 : 673–681. [CrossRef] [PubMed] [Google Scholar]

© 2013 médecine/sciences – Inserm

Liste des tableaux

Tableau I.

Mesures recueillies dans la population « heterogeneous stock » de rats.

Liste des figures

thumbnail Figure 1.

Localisation chromosomique des QTL significativement associés aux mesures recueillies chez les rats HS. Un code couleur indique les différentes catégories de phénotypes représentatifs de maladies complexes et de paramètres biochimiques (cholestérol, AST, ALT, créatinine, sodium, potassium, fer, etc.), immunologiques (proportions de cellules B, T, CD4+, CD8+, CD25+, etc.), et hématologiques (nombre de cellules éosinophiles, basophiles, concentration en hémoglobine, etc.).

Dans le texte
thumbnail Figure 2.

Variants candidats potentiellement causatifs au niveau d’un QTL. Un QTL pour la masse cardiaque sur le chromosome 1 (A) et un QTL pour le poids du corps sur le chromosome 3 (B) Sont présentés. La position sur le chromosome est indiquée sur l’axe horizontal et la significativité de l’association entre variation génétique et variation phénotypique, exprimée en -log10P, sur l’axe vertical. La ligne noire indique l’association avec les haplotypes, alors que chaque point bleu indique l’association avec un variant de séquence. Les points bleu foncé correspondent à des variants candidats, c’est-à-dire dont l’association avec le phénotype est au moins aussi significative que l’association la plus significative entre haplotypes et phénotype au QTL. Le panneau A est donc un exemple de QTL avec variants candidats, tous situés dans le gène Shank2, alors qu’aucun variant candidat n’existe au QTL présenté dans le panneau B.

Dans le texte

Les statistiques affichées correspondent au cumul d'une part des vues des résumés de l'article et d'autre part des vues et téléchargements de l'article plein-texte (PDF, Full-HTML, ePub... selon les formats disponibles) sur la platefome Vision4Press.

Les statistiques sont disponibles avec un délai de 48 à 96 heures et sont mises à jour quotidiennement en semaine.

Le chargement des statistiques peut être long.