Issue |
Med Sci (Paris)
Volume 39, Novembre 2023
Les Cahiers de Myologie
|
|
---|---|---|
Page(s) | 22 - 27 | |
Section | Prix SFM | |
DOI | https://doi.org/10.1051/medsci/2023136 | |
Published online | 17 November 2023 |
Les omiques au service de la myologie
Omics to serve myology
IGBMC - CNRS UMR 7104 - Inserm U 1258, 1 rue Laurent Fries, BP 10142, 67404 Illkirch Cedex, France
Malgré les efforts de la recherche biomédicale, les mécanismes pathologiques et les cibles thérapeutiques des maladies restent difficiles à identifier. L’essor des technologies à haut débit a conduit au développement de technologies innovantes dites « omiques » (omics en langue anglaise). Elles visent à caractériser de manière exhaustive un ensemble de molécules : gènes, ARN, protéines, métabolites, etc. Ces méthodes sans a priori permettent une caractérisation moléculaire fine des maladies et une meilleure compréhension des mécanismes physiopathologiques complexes. Dans cet article, nous ferons un tour d’horizon des approches omiques, de leur intégration et de leurs applications dans le contexte de la myologie.
Abstract
Despite efforts in biomedical research, pathophysiological mechanisms and therapeutic targets of diseases remain difficult to identify. The development of high-throughput techniques led to the advent of innovatve technologies called omics. They aim at characterizing as exhaustively as possible a set of molecules: genes, RNAs, proteins, metabolites, etc. These a priori methods allow a precise molecular characterization of diseases and a better understanding of complex pathophysiological mechanisms. In this paper, we will review most omics approaches, their integration and their applications in the context of myology.
© 2023 médecine/sciences – Inserm
© A. Simon
À chaque omique, sa méthodologie
Les études omiques sont réalisées à l’échelle du génome, de l’épigénome, du transcriptome, du protéome ou du métabolome. Pour chacune d’entre elles, différentes approches méthodologiques sont à la disposition des chercheurs afin de répondre à des questions biologiques variées (Tableau I).
Résumé des différentes disciplines omiques et de leurs applications.
Génomique
La génomique étudie le génome d’un organisme grâce au séquençage qui détermine l’ordre et la nature des nucléotides dans des molécules d’ADN. Le séquençage par la méthode Sanger a été largement utilisé depuis les années 1980, et est longtemps resté la technique de référence bien que limité au séquençage d’un seul fragment d’ADN à la fois.
Les technologies de séquençage à haut débit (next generation sequencing) sont aujourd’hui privilégiées pour l’étude à moindre coût du génome entier (whole genome sequencing) ou de l’exome entier (exome sequencing : séquençage des parties codantes de l’ADN, soit environ 1 % du génome). Deux types de séquençage à haut débit existent : à courtes lectures (short read sequencing) et à longues lectures (long read sequencing).
Le premier est une méthode hautement parallèle qui permet de séquencer simultanément des millions de petits fragments d’ADN (50-300 paires de bases). Cette parallélisation est rendue possible par l’amplification in vitro des fragments immobilisés sur une surface en deux dimensions, suivie d’un séquençage par synthèse simultanée sur toute cette surface. L’alignement des lectures sur un génome de référence permet de détecter des variations nucléotidiques et du nombre de copies, ainsi que des insertions ou des délétions de moins de 50 paires de bases [1, 2].
Comme son nom l’indique, le séquençage à longues lectures génère quant à lui des lectures de séquences d’ADN plus longues (10 000-1 000 000 paires de bases), sans amplification. Les données obtenues permettent un meilleur assemblage de novo des génomes, la caractérisation des chromosomes de télomère à télomère, la résolution de régions hautement répétées et l’identification des variants structuraux complexes (> 50 paires de bases). Certaines technologies de séquençage à longues lectures incluent le séquençage par synthèse SMRT (Single Molecule Real-Time) de PacBio et le séquençage Nanopore d’Oxford Nanopore Technologies [3].
Épigénomique
L’épigénomique étudie les modifications chimiques qui affectent l’expression des gènes sans modifier la séquence de l’ADN. Ce sont principalement la méthylation de cytosines spécifiques de l’ADN, les modifications chimiques des histones et les variations de compaction de la chromatine. Ces modifications peuvent être héritées ou influencées par des facteurs environnementaux.
Pour caractériser la méthylation de l’ADN au niveau du génome entier, la méthode de référence est le séquençage bisulfite. Elle consiste à convertir, avant séquençage, toutes les cytosines non méthylées en uraciles, ce qui permet d’obtenir une résolution au nucléotide près. On peut également choisir de séquencer préférentiellement les régions méthylées de l’ADN en utilisant des enzymes de restriction sensibles à la méthylation ou des anticorps spécifiques des cytosines méthylées.
Pour étudier les modifications chimiques sur les histones telles que l’acétylation, la méthylation, la phosphorylation ou l’ubiquitination, la méthode la plus répandue est le ChIP-seq (Chromatin ImmunoPrecipitation followed by sequencing). Elle utilise des anticorps spécifiques d’une modification d’intérêt pour isoler et séquencer les fragments d’ADN de la chromatine qui présentent cette modification.
Enfin, pour déterminer les régions accessibles de la chromatine, la méthode de référence est l’ATAC-seq (Assay for Transposase-Accessible Chromatin using sequencing), qui consiste à utiliser la transposase Tn5 pour fragmenter et isoler uniquement les régions ouvertes de la chromatine, avant séquençage [4].
Transcriptomique
La transcriptomique a pour but de caractériser l’ensemble des ARN transcrits à partir du génome d’un organisme. Ceci permet notamment l’identification de gènes ou de transcrits différentiellement exprimés selon plusieurs conditions. En fonction de la question biologique posée, on peut choisir de quantifier l’expression des ARN messagers par capture des queues polyadénylées ou de caractériser le transcriptome entier par déplétion des ARN ribosomaux. Les ARN isolés à partir d’un échantillon sont ensuite fragmentés et rétro-transcrits en ADN complémentaires, avant d’être séquencés par des méthodes à courtes ou longues lectures. Ces dernières offrent une meilleure identification des différents isoformes et des variations d’épissage. Les analyses transcriptomiques peuvent être réalisées à plusieurs échelles.
Le séquençage de l’ARN total (bulk RNA-seq) quantifie l’ensemble des transcrits présents dans un tissu ou dans une population de cellules. Ceci informe sur les niveaux moyens d’expression des gènes et de leurs différentes isoformes dans un échantillon donné. Cette méthode de séquençage est utile pour la découverte de biomarqueurs et de mécanismes moléculaires globaux dans un contexte pathologique, mais elle ne permet pas l’étude des profils d’expression propres à certaines populations de cellules.
Le séquençage de l’ARN sur cellules ou noyaux isolés (scRNA-seq ou snRNA-seq) permet de quantifier simultanément les transcrits de plusieurs milliers de cellules ou noyaux individuels. L’hétérogénéité intra-tissulaire est prise en compte et des sous-populations d’intérêt peuvent être mises en évidence et étudiées au sein de ces échantillons [5]. La microfluidique est la technique la plus établie pour isoler et séquencer jusqu’à 20 000 cellules ou noyaux, mais de nouvelles approches basées sur la combinaison de codes-barres (split-pool barcoding) permettent aujourd’hui le séquençage de plus de 100 000 cellules ou noyaux à la fois [6].
La transcriptomique spatiale fait le lien entre information spatiale et quantification des transcrits. Par exemple, la technologie Visium, développée par 10X Genomics, consiste à imager une coupe de tissu congelé par microscopie et à la placer sur une lame avec des milliers de régions contenant des codes-barres spatiaux uniques. Après séquençage, les données d’expression génique peuvent ainsi être reliées à un contexte morphologique dans un tissu. Une autre technique de transcriptomique spatiale, le profileur spatial digital (DSP pour Digital Spatial Profiler) GeoMx® de nanoString, consiste à marquer des types cellulaires d’intérêt par fluorescence en vue de sélectionner les régions d’intérêt à séquencer sur coupe de tissu [5].
Protéomique
La protéomique est l’étude des protéines présentes dans un échantillon biologique à un moment donné. La spectrométrie de masse associée à la chromatographie liquide (LC/MS) est actuellement la méthode privilégiée pour identifier et quantifier ces protéines. La chromatographie liquide sépare les analytes qui sont ensuite ionisés et fragmentés afin de les isoler en fonction de leur ratio masse/charge par le spectromètre de masse [7]. Les études de protéomique par spectrométrie de masse peuvent être réalisées de manière globale pour quantifier des milliers de protéines, ou ciblée en concentrant l’analyse sur quelques protéines d’intérêt isolées à partir d’un échantillon. La protéomique globale s’inscrit dans une démarche exploratoire et présente des avantages pour la découverte de biomarqueurs. La protéomique ciblée permet la quantification précise et absolue de quelques protéines d’intérêt avec une meilleure sensibilité. Deux stratégies existent pour réaliser des études ciblées ou globales.
Les approches basées sur la quantification des peptides, dites bottom-up, consistent à réaliser une digestion protéolytique des protéines pour obtenir des peptides courts. Ceux-ci sont plus aisément fragmentés que les protéines complètes, ce qui facilite l’analyse par spectrométrie de masse et conduit à une bonne sensibilité. Les protéines sont ensuite identifiées à partir des pics du spectre de masse, chaque pic représentant un fragment de peptide ionisé. Cependant, les approches bottom-up ne permettent pas la distinction des différentes protéoformes, qui sont les produits protéiques d’un gène unique résultant des variations génétiques, de l’épissage alternatif des ARN, ou de modification post-traductionnelles (phosphorylation, glycosylation, acétylation, ubiquitination…) [8].
Pour la quantification relative des modifications des protéines, les approches dites top-down sont privilégiées. Elles consistent à introduire les protéines intactes dans le spectromètre de masse, ce qui permet une caractérisation complète des protéoformes. Cependant, les protéines intactes sont moins bien ionisées et détectées que les peptides, ce qui restreint leur quantification. Les analyses ciblées ou l’enrichissement des protéines d’intérêt avant l’analyse top-down permettent l’obtention de meilleurs résultats [9].
Métabolomique
La métabolomique étudie les métabolites de manière qualitative et quantitative. Les métabolites sont de petites molécules (masse moléculaire < 1 500 Da) qui reflètent les variations génomiques, transcriptomiques, protéomiques et environnementales qui ont eu lieu dans l’organisme, et les relient au phénotype [10, 11]. De plus, les métabolites pouvant être mesurés dans les tissus, mais aussi dans les fluides biologiques tels que le sang et l’urine, ce sont d’excellents candidats pour la recherche de biomarqueurs. Comme pour la protéomique, les études de métabolomique peuvent être réalisées de manière globale ou ciblée. Pour séparer et identifier les différentes classes d’espèces chimiques présentes dans le métabolome, plusieurs outils analytiques complémentaires sont utilisés : la spectrométrie par résonnance magnétique nucléaire (RMN), la spectroscopie infrarouge à transformée de Fourier, la spectrométrie de masse associée à la chromatographie liquide ou gazeuse, ou à l’électrophorèse capillaire [10].
La lipidomique est une discipline émergente issue de la métabolomique. Tandis que la métabolomique « classique » vise à quantifier les composés hydrophiles (carbohydrates, acides nucléiques, acides aminés), la lipidomique cible les composés hydrophobes tels que les acides gras, les glycérides, les phosphoglycérides, les sphingolipides, les prénols et les stérols [12].
L’intégration multi-omique
Chaque omique apporte des informations extrêmement détaillées au niveau moléculaire. Cependant, les omiques sont souvent considérés individuellement, ce qui n’est pas suffisant pour comprendre la complexité biologique de la plupart des maladies humaines [13]. Une intégration des différentes couches de données omiques – approche dite multi-omique – qui prend en compte les mécanismes reliant génome, épigénome, transcriptome, protéome et métabolome, pourrait améliorer la compréhension du lien entre la mutation causant une maladie et ses conséquences fonctionnelles (Figure 1) [14].
Figure 1. Intégration multi-omique pour l’étude de maladies (créée avec BioRender.com). |
L’intégration multi-omique étant un domaine relativement récent, il n’existe pas encore d’approche de référence. Les principales méthodes d’intégration reposent sur des analyses multifactorielles, l’intelligence artificielle, en particulier les méthodes d’apprentissage profond (deep learning), et sur l’intégration des données dans des réseaux biologiques complexes.
Les analyses multifactorielles
Les analyses multifactorielles décomposent les données issues de chaque niveau omique en facteurs permettant de réduire la dimensionalité des données, tout en capturant les sources majeures de variations. Le modèle MOFA (Multi-Omics Factor Analysis) utilise une représentation matricielle des données omiques et les probabilités bayésiennes. Ceux-ci peuvent ensuite être utilisés pour l’identification de sous-types de maladies, et des analyses d’enrichissement peuvent relier chaque facteur à des fonctions biologiques pour une meilleure interprétation des résultats. [15]
L’apprentissage profond ou deep learning
Le deep learning présente des avantages pour l’intégration de données multi-omiques complexes, en particulier pour réaliser des prédictions et identifier des caractéristiques non linéaires. Les approches non supervisées d’apprentissage profond telles que les auto-encodeurs permettent de réduire la dimensionalité importante des jeux de données multi-omiques et de sélectionner les caractéristiques sous-jacentes les plus pertinentes. Ces approches sont particulièrement utiles pour la découverte de sous-types de maladies. Les approches supervisées comme la classification et la régression basées sur des réseaux de neurones profonds, peuvent permettre de prédire des résultats cliniques ou d’estimer la survie dans une population à partir de co-variables. Cependant, ces approches sont limitées par la nécessité d’avoir un jeu de données d’entraînement et de validation de plusieurs milliers d’échantillons, ce qui est peu compatible dans le contexte des recherches sur les maladies rares [16].
L’intégration dans des réseaux biologiques complexes
Les réseaux, quant à eux, sont utilisés pour représenter toutes les interactions pertinentes dans un système biologique. Les molécules (gènes, transcrits, protéines, métabolites) sont représentées par des nœuds. Les interactions moléculaires sont représentées par des arrêtes reliant les nœuds deux à deux. Elles peuvent relier des nœuds de même nature ou relier différents niveaux omiques (Figure 2). Pour construire les réseaux biologiques, on identifie les interactions entre nœuds à partir de données expérimentales, en analysant par exemple la co-expression des molécules, mais en intégrant également des connaissances issues de bases de données publiques comme les interactions entre protéines ou encore les voies moléculaires associées. Une fois le réseau construit, il est possible d’identifier des modules de nœuds hyperconnectés reliant différents niveaux omiques, ce qui peut conduire à la découverte de nouvelles hypothèses mécanistiques pour le phénotype étudié [17].
Figure 2. Exemple de réseau biologique complexe intégrant plusieurs niveaux omiques et plusieurs types d’interactions (créée avec BioRender.com). |
L’intégration multi-omique en myologie
L’intégration multi-omique a trois champs d’application principaux pour l’étude des maladies : l’identification de sous-types de maladies, la découverte de biomarqueurs et l’exploration des mécanismes pathologiques [14].
Des sous-types de maladies peuvent en effet être identifiés et catégorisés grâce à des profils multi-omiques, en particulier en cancérologie [18], mais aussi pour les myopathies inflammatoires idiopathiques [19]. Ces profils peuvent également permettre l’identification de biomarqueurs dans un but diagnostique et/ou pour le suivi des patients.
Des études multi-omiques ont par exemple permis de prédire la réponse de patients atteints de myopathies inflammatoires à différents traitements [20], d’identifier des biomarqueurs dans la dystrophie facio-scapulo-humérale [21], la sclérose latérale amyotrophique [22] et les myopathies centronucléaires [23]. Enfin, l’intégration de différents niveaux omiques peut permettre de mieux comprendre les mécanismes reliant cause génétique et conséquences phénotypiques dans l’étude de la sarcopénie [24], de la dystrophie musculaire de Duchenne [25, 26] ou de la forme sporadique de myosite à inclusions [27].
Conclusion
Les approches omiques offrent des perspectives très prometteuses dans le domaine de la myologie, avec en ligne de mire une compréhension approfondie des mécanismes moléculaires impliqués dans les différentes maladies du nerf et du muscle. L’intégration multi-omique émerge comme une approche puissante pour examiner de manière holistique les multiples niveaux d’informations biologiques tels que le génome, l’épigénome, le transcriptome, le protéome et le métabolome. Ceci permet l’identification précise des biomarqueurs et des voies métaboliques perturbées dans ces maladies, fournissant ainsi des informations précieuses pour le suivi des patients, la compréhension des mécanismes pathologiques et le développement de nouvelles thérapies ciblées. Cependant, il reste encore de nombreux défis techniques et conceptuels à relever. L’intégration et l’analyse des données omiques complexes nécessitent des approches bioinformatiques de pointe et des efforts collaboratifs entre de nombreuses disciplines scientifiques.
Prix SFM
Ces travaux ont été récompensés par le Prix Master de la Société Française de Myologie décerné lors des JSFM 2021.
Liens d’intérêt
L’auteure déclare n’avoir aucun lien d’intérêt concernant les données publiées dans cet article.
Références
- Hu T, Chitnis N, Monos D, et al. Next-generation sequencing technologies: An overview. Hum Immunol 2021; 82 : 801–11. [CrossRef] [PubMed] [Google Scholar]
- Gorokhova S, Biancalana V, Lévy N, et al. Clinical massively parallel sequencing for the diagnosis of myopathies. Rev Neurol (Paris) 2015 ; 171 : 558–571. [CrossRef] [PubMed] [Google Scholar]
- Logsdon GA, Vollger MR, Eichler EE. Long-read human genome sequencing and its applications. Nat Rev Genet 2020; 21 : 597–614. [CrossRef] [PubMed] [Google Scholar]
- Mehrmohamadi M, Sepehri MH, Nazer N, et al. A comparative overview of epigenomic profiling methods. Front Cell Dev Biol 2021; 9 : 714687. [CrossRef] [PubMed] [Google Scholar]
- Li X, Wang CY. From bulk, single-cell to spatial RNA sequencing. Int J Oral Sci 2021; 13 : 36. [CrossRef] [PubMed] [Google Scholar]
- Rosenberg AB, Roco CM, Muscat RA, et al. Single-cell profiling of the developing mouse brain and spinal cord with split-pool barcoding. Science 2018 ; 360 : 176–182. [NASA ADS] [CrossRef] [PubMed] [Google Scholar]
- Aebersold R, Mann M. Mass-spectrometric exploration of proteome structure and function. Nature 2016 ; 537 : 347–355. [CrossRef] [PubMed] [Google Scholar]
- Smith LM, Agar JN, Chamot-Rooke J et al. The human proteoform project: Defining the human proteome. Sci Adv 2021; 46 : eabk0734. [CrossRef] [PubMed] [Google Scholar]
- Rozanova S, Barkovits K, Nikolov M et al. Quantitative mass spectrometry-based proteomics: An overview. Methods Mol Biol 2021; 2228 : 85–116. [CrossRef] [PubMed] [Google Scholar]
- Aderemi AV, Ayeleso AO, Oyedapo OO, et al. Metabolomics: A scoping review of its role as a tool for disease biomarker discovery in selected non-communicable diseases. Metabolites 2021; 11 : 418. [CrossRef] [PubMed] [Google Scholar]
- Wishart DS. Metabolomics for investigating physiological and pathophysiological processes. Physiol Rev 2019 ; 99 : 1819–1875. [CrossRef] [PubMed] [Google Scholar]
- Wang R, Li B, Lam SM, et al. Integration of lipidomics and metabolomics for in-depth understanding of cellular mechanism and disease progression. J Genet Genomics 2020; 47 : 69–83. [CrossRef] [PubMed] [Google Scholar]
- Karczewski KJ, Snyder MP. Integrative omics for health and disease. Nat Rev Genet 2018 ; 19 : 299–310. [CrossRef] [PubMed] [Google Scholar]
- Subramanian I, Verma S, Kumar S, et al. Multi-omics data integration, interpretation, and its application. Bioinforma Biol Insights 2020; 14 : 1177932219899051. [CrossRef] [Google Scholar]
- Argelaguet R, Velten B, Arnol D, et al. Multi-omics factor analysis–a framework for unsupervised integration of multi-omics data set. Mol Syst Biol 2018 ; 14 : e8124. [CrossRef] [PubMed] [Google Scholar]
- Kang M, Ko E, Mersha TB A roadmap for multi-omics data integration using deep learning. Brief Bioinform 2022; 23 : bbab454. [CrossRef] [PubMed] [Google Scholar]
- Bodein A, Scott-Boyer MP, Perin O et al. Interpretation of network-based integration from multi-omics longitudinal data. Nucleic Acids Res 2022; 50 : e27. [CrossRef] [PubMed] [Google Scholar]
- Brière G, E. Darbo É, P. Thébault P, et al. Consensus clustering applied to multi-omics disease subtyping. BMC Bioinformatics 2021; 22 : 361. [CrossRef] [PubMed] [Google Scholar]
- Eng SWM, Olazagasti JM, Goldenberg A, et al. A clinically and biologically based subclassification of the idiopathic inflammatory myopathies using machine learning. ACR Open Rheumatol 2020; 2 : 158–66. [CrossRef] [PubMed] [Google Scholar]
- Danieli MG, Tonacci A, Paladini A, et al. A machine learning analysis to predict the response to intravenous and subcutaneous immunoglobulin in inflammatory myopathies. A proposal for a future multi-omics approach in autoimmune diseases. Autoimmun Rev 2022; 21 : 103105. [CrossRef] [Google Scholar]
- Heier CR, Zhang A, Nguyen NY, et al. Multi-omics identifies circulating miRNA and protein biomarkers for facioscapulohumeral dystrophy. J Pers Med 2020; 10 : 236. [CrossRef] [PubMed] [Google Scholar]
- Mitropoulos K, Katsila T, Patrinos GP, et al. Multi-omics for biomarker discovery and target validation in biofluids for amyotrophic lateral sclerosis diagnosis. OMICS 2018 ; 22 : 52–64. [CrossRef] [PubMed] [Google Scholar]
- Djeddi S, Reiss D, Menuet A, et al. Multi-omics comparisons of different forms of centronuclear myopathies and the effects of several therapeutic strategies. Mol Ther 2021; 29 : 2514–34. [CrossRef] [PubMed] [Google Scholar]
- Liu JC, Dong SS, Shen H, et al. Multi-omics research in sarcopenia: Current progress and future prospects. Ageing Res Rev 2022; 76 : 101576. [CrossRef] [PubMed] [Google Scholar]
- Mournetas V, Massouridès E, Dupont JB, et al. Myogenesis modelled by human pluripotent stem cells: a multi-omic study of Duchenne myopathy early onset ». J Cachexia Sarcopenia Muscle 2021; 12 : 209–32. [CrossRef] [PubMed] [Google Scholar]
- Espinosa-Espinosa J, González-Barriga A, López-Castel A, et al. Deciphering the complex molecular pathogenesis of myotonic dystrophy type 1 through omics studies. Int J Mol Sci 2022; 23 : 1441. [CrossRef] [PubMed] [Google Scholar]
- Murakami A, Noda S, Kazuta T, et al. Metabolome and transcriptome analysis on muscle of sporadic inclusion body myositis. Ann Clin Transl Neurol 2022; 9 : 1602–15. [CrossRef] [PubMed] [Google Scholar]
Liste des tableaux
Liste des figures
Figure 1. Intégration multi-omique pour l’étude de maladies (créée avec BioRender.com). |
|
Dans le texte |
Figure 2. Exemple de réseau biologique complexe intégrant plusieurs niveaux omiques et plusieurs types d’interactions (créée avec BioRender.com). |
|
Dans le texte |
Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.
Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.
Initial download of the metrics may take a while.