Open Access
Issue
Med Sci (Paris)
Volume 41, Octobre 2025
40 ans de médecine/sciences
Page(s) 111 - 114
Section Épidémiologie et santé publique
DOI https://doi.org/10.1051/medsci/2025119
Published online 10 October 2025

Le texte qui suit n’a aucune prétention historique : il s’agit simplement du témoignage d’un observateur et acteur de la scène épidémiologique dans notre pays, qui a exercé la discipline pendant plus de 40 ans dans différents contextes institutionnels, académiques ou non : Inserm, université, agence de santé publique (Institut de veille sanitaire, aujourd’hui Santé publique France), services médicaux d’une grande entreprise publique. J’ai également été fortement impliqué dans l’animation du milieu de l’épidémiologie, en ayant siégé pendant 12 ans à la Commission scientifique spécialisée de l’Inserm (dont un mandat en tant que président) ; j’ai eu aussi l’honneur de présider pendant plusieurs années l’Association des épidémiologistes de langue française. Ces fonctions m’ont permis d’avoir une vision « longitudinale », pour employer un terme épidémiologique, du milieu et de son évolution pendant plusieurs décennies.

Des méthodes de plus en plus sophistiquées, des données de plus en plus diversifiées et nombreuses

Sur le plan méthodologique et technique, pendant les décennies écoulées, nous avons assisté à d’importantes évolutions de l’épidémiologie. Grâce à l’énorme développement des capacités de calcul et de stockage des outils informatiques, deux phénomènes se sont développés en parallèle : d’une part l’accroissement quasi vertigineux de la quantité de données de différentes natures disponibles, certaines provenant de sources nouvelles, et d’autre part la sophistication des méthodes d’analyse.

Les données mobilisées par les études épidémiologiques d’aujourd’hui proviennent en grande partie de sources qui n’étaient pas disponibles il y a quelques décennies, comme les données génétiques de séquençage, de nouvelles méthodes d’imagerie ou d’images satellites et, plus récemment encore, les données tirées des objets connectés ou des réseaux sociaux. Les données médicoadministratives issues de l’activité hospitalière ou liées au remboursement des soins sont utilisées depuis longtemps, mais elles ont pris une ampleur gigantesque avec la mise en place d’entrepôts de données hospitalières et du Système national des données de santé qui couvrent la totalité de la population vivant en France. La taille des jeux de données utilisables par les épidémiologistes peut parfois se compter en téraoctets, voire en pétaoctets, constituant ce qu’on appelle des big data.

En parallèle, grâce à l’augmentation des capacités de calcul des ordinateurs et du fait du volume des données à traiter, des méthodes statistiques de plus en plus sophistiquées ont été développées. Les années récentes ont vu l’arrivée en force de méthodes d’intelligence artificielle particulièrement performantes.

La disponibilité de masses gigantesques de données et de méthodes permettant de les analyser a considérablement élargi les possibilités d’investigation, modifié les conditions d’exercice de l’épidémiologie et fait apparaître de nouveaux métiers au sein de la discipline, comme les data scientists ou les spécialistes des systèmes d’information géographique. Il est clair que ces mouvements vont encore s’amplifier. Cependant, ces possibilités nouvelles ne sont pas sans danger… Comme le rappelait l’épidémiologiste Rodolfo Saracci [1], la validité des données doit toujours prévaloir sur leur nombre, et big data n’est pas synonyme de good data. Bien souvent, nous ne savons rien (ou trop peu) des conditions de recueil des données provenant de ces sources, des personnes auprès desquelles elles ont été collectées ou de la population dont elles sont issues. Et leur quantité, si elle peut compenser partiellement certaines imprécisions des mesures, ne pourra évidemment pas corriger les nombreux biais, de toute nature, susceptibles d’être rencontrés dans un contexte le plus souvent non contrôlé. Bien au contraire, des résultats issus de l’analyse de masses énormes de données peuvent donner à tort l’illusion de résultats solides, ceci d’autant plus qu’évidemment toute différence, si minime soit-elle, sera statistiquement significative.

Quel que soit le caractère innovant des méthodes d’analyse de données massives et leur apport indéniable dans certains domaines, elles ne remplaceront jamais ni la recherche sur les mécanismes biologiques, ni la recherche clinique, ni l’expertise épidémiologique. À cet égard, les résultats issus d’algorithmes complexes, dont les concepteurs eux-mêmes ne sont pas capables d’expliquer le fonctionnement, peuvent générer des résultats trompeurs s’ils ne sont pas encadrés par les fondamentaux d’une démarche épidémiologique rigoureuse.

Les cohortes en population

Il est habituel de faire la distinction entre cohortes de malades et cohortes en population. Les premières sont centrées sur une maladie spécifique, le plus souvent dans le but d’étudier les déterminants de son évolution, notamment les traitements ; les sujets sont en nombre souvent restreint (quelques centaines ou milliers de patients en général) et sont recrutés sur la base de caractéristiques médicales particulières ; les données recueillies sont très détaillées, incluant notamment des investigations biocliniques approfondies.

Les cohortes en population, centrées essentiellement sur l’étude des déterminants de la survenue de maladies, sont souvent de grande taille, ne recrutent pas leurs participants selon des critères de santé, se caractérisent par une couverture large de problèmes de santé et de déterminants et une ouverture vers des utilisateurs diversifiés ; selon la définition de l’ANRS, une cohorte « doit être conçue pour répondre à plusieurs questions de recherche épidémiologique, clinique, biologique ou de santé publique même si certaines ne sont pas encore formulées de façon précise au démarrage de la cohorte ». Dans ce qui suit, on traitera uniquement des cohortes en population, les cohortes de malades relevant plutôt de la recherche clinique.

Alors que, dans le monde anglo-saxon, les années qui ont suivi la deuxième guerre mondiale ont vu se mettre en place des cohortes en population qui ont largement contribué au développement de l’épidémiologie des maladies chroniques, comme la cohorte Framingham mise en place en 1948 [2], ou la British Doctors Study en 1951 [3], en France, il a fallu attendre 1967 pour voir l’Étude prospective parisienne, première cohorte en population [4], et ce travail pionnier est resté pendant longtemps isolé. La mise en place d’importantes cohortes en population comme outils épidémiologiques a réellement émergé il y a environ trois décennies. Au tournant des années 1980-1990, plusieurs cohortes importantes ont été mises en place [5-7], suivies par d’autres cohortes de personnes âgées dans les années suivantes et celles des investissements d’avenir, après 2010 [8].

On a observé des évolutions importantes de certains aspects des cohortes en France durant les décennies récentes. Elles se caractérisent tout d’abord par leur taille de plus en plus grande. Alors que l’Étude prospective parisienne comptait moins de 8 000 participants [4], la cohorte E3N1 avait, dès 1990, recruté 100 000 femmes [7]. Gazel2 qui, avec 20 000 participants lors de sa mise en place il y a plus de trente-cinq ans, semblait une cohorte de grande taille [6], est suivie aujourd’hui de Constances3, dix fois plus importante [9].

Elles ont également un caractère de plus en plus « généraliste ». Les premières générations de cohortes étaient centrées sur un domaine spécifique de la santé, comme la pathologie cardiovasculaire [4], les cancers [7] ou les démences [5]. Les objectifs scientifiques se sont considérablement élargis à des maladies diverses, et certaines cohortes prenant en compte les possibilités d’accumuler de nombreux cas de maladies diverses offertes par leurs importants effectifs annoncent explicitement ne pas avoir d’orientation spécifique en termes de maladies étudiées [6, 9].

Les cohortes comme infrastructures de recherche

Les premières générations de cohortes en population avaient été conçues comme des outils pour la poursuite des objectifs scientifiques propres aux équipes qui les mettaient en place ; leur utilisation était donc essentiellement le fait de ces équipes dans leur propre domaine de recherche. Avec l’augmentation de la taille des cohortes, réunissant des effectifs permettant l’étude de pathologies diverses, et l’augmentation parallèle de leur coût, est apparue la nécessité d’ouvrir l’accès à leurs données à la communauté scientifique, leur donnant un rôle d’infrastructure de recherche dépassant les intérêts scientifiques propres des équipes qui les conduisent.

Ces tendances se retrouvent à l’échelle internationale avec une obligation de partage des données imposée par la plupart des organismes qui financent des cohortes [10]. On assiste également à la mise en place de « méga-cohortes » de plusieurs centaines de milliers de participants, dépassant le million pour les plus importantes. Certaines de ces cohortes s’accompagnent de gigantesques biobanques stockant des millions d’échantillons de matériel biologique divers (sang, urine, fèces, etc.), ainsi que de la collecte de données d’imagerie… Ainsi, la cohorte UK Biobank qui réunit plus de 500 000 participants en Grande-Bretagne, a déjà réalisé une imagerie par IRM du cerveau, du cœur et du corps entier chez 100 000 participants, le séquençage du génome entier pour les 500 000 participants, le séquençage de l’exome entier pour 470 000 participants, et le génotypage de tous les sujets (800 000 variants à l’échelle du génome et imputation de 90 millions de variants). Le coût de telles infrastructures est évidemment très élevé : à la date de juillet 2024, le budget de UK Biobank, s’élevait à au moins 472 millions d’euros4. La cohorte américaine All of Us (environ 1 million de participants) dispose pour la période 2016-2026 d’un budget de 1,77 milliard d’euros voté par le Congrès des États-Unis5. Il n’est pas sans intérêt de noter que le budget pour la période 2011-2024 de Constances (la plus grande cohorte française avec 220 000 participants) s’est élevé à 66 millions d’euros de financement public…

L’intérêt de ces méga-cohortes est de permettre des études dotées d’une grande puissance statistique du fait de leur grand effectif. Mais, même ces cohortes géantes ne permettent pas toujours de réunir des effectifs suffisants pour l’étude de maladies rares et/ou d’expositions à des facteurs de risque peu fréquents ou dont les effets sont faibles. Cela a suscité, particulièrement dans la dernière décennie, la constitution de consortiums de cohortes, destinés à permettre la mise en commun de données. Les consortiums les plus récents associent plusieurs dizaines de cohortes dont les effectifs totaux se comptent en millions de sujets. Il devient de plus en plus fréquent de lire des publications portant sur le suivi individuel de plus d’un million de personnes.

De nouveaux domaines d’investigation

Un autre aspect est celui du renforcement, voire de l’émergence, de nouveaux domaines scientifiques dans le champ de l’épidémiologie. Il y a quelques décennies, l’essentiel de la recherche épidémiologique populationnelle était une « épidémiologie d’organe » concernant des maladies spécifiques, et centrée essentiellement sur l’exposition à des facteurs de risque personnels. Progressivement, on a vu l’important essor de thèmes comme l’étude des effets de l’environnement sur divers aspects de la santé : maladies respiratoires, cardiovasculaires, cancers, et plus récemment, la santé mentale et les fonctions cognitives. Certains domaines, pourtant importants, voire fondateurs, dans l’histoire de l’épidémiologie, comme l’étude des risques professionnels ou celle des déterminants sociaux de la santé, étaient un peu tombés en désuétude dans le paysage de la recherche épidémiologique française. Dans un contexte national et international de reconnaissance de plus en plus aiguë des inégalités sociales et territoriales de santé, ces thèmes ont connu une forte progression depuis les années 1990, et on a vu apparaître de nouvelles équipes très actives dans ces domaines.

La place grandissante de l’épidémiologie dans l’élaboration et la conduite des politiques de santé, et l’apparition de nouveaux acteurs

Il y a trois ou quatre décennies, l’épidémiologie était en France le domaine quasi-exclusif du monde académique, et tout particulièrement de l’Inserm, qui exerçait pratiquement un monopole sur la discipline. Même si l’essentiel des travaux de ses équipes était consacré à la recherche étiologique, c’était aussi l’Inserm qui réalisait les études à visée de santé publique. Progressivement, les pouvoirs publics ont été de plus en plus demandeurs d’informations de nature épidémiologique pour l’élaboration et la conduite des politiques de santé, et de nouveaux organismes sont apparus. Le mouvement a été entamé avec les Observatoires régionaux de la santé, puis des agences de santé ont été créées dans divers domaines : surveillance sanitaire, médicaments, environnement… Des équipes d’épidémiologie se sont constituées dans certaines de ces agences, de même qu’à la Caisse nationale d’assurance maladie ; d’autres, sans réunir des équipes en interne, sont devenues des financeurs importants de la recherche épidémiologique. Aujourd’hui, l’épidémiologie constitue une des disciplines majeures sur lesquelles s’appuient ces agences de santé, qui sont plus proches des décideurs de santé publique que les chercheurs du monde académique, ce qui permet à l’épidémiologie d’intervenir plus directement dans les décisions de santé publique.

Vers la reconnaissance de l’épidémiologie comme discipline scientifique à part entière

Pour conclure, je voudrais rappeler que, pendant longtemps, l’épidémiologie n’a pas été reconnue comme une science à part entière et était considérée, dans les milieux de la recherche biomédicale, comme une discipline mineure, voire non véritablement scientifique, tout juste bonne à donner des chiffres, des corrélations statistiques et à « produire des statistiques ». En témoigne la discussion récurrente au sein de l’Inserm, jusqu’à une période récente, à chaque renouvellement de mandature des Commissions scientifiques spécialisées sur l’intérêt d’avoir une Commission dédiée ou, au contraire, d’éclater les équipes d’épidémiologie dans des Commissions centrées sur des maladies comme le cardiovasculaire ou le cancer. Ou encore l’affirmation, par un membre éminent des Académies des sciences et de médecine, au début des années 2000 qu’on avait enfin, à la suite de travaux de biologie, prouvé que le tabac pouvait induire des cancers… alors que l’épidémiologie l’avait montré de façon indiscutable depuis des décennies !

Et il a fallu attendre 2004 pour qu’un épidémiologiste (Alain-Jacques Valleron) soit élu à l’Académie des sciences. Aujourd’hui, heureusement, le statut de l’épidémiologie comme discipline scientifique à part entière est mieux reconnu, et on trouve des épidémiologistes dans des institutions prestigieuses comme l’Académie des sciences et le Collège de France, notamment.

Un marqueur indirect de la reconnaissance de la discipline est le nombre impressionnant de scientifiques, dont le domaine est souvent très éloigné de l’épidémiologie, qui se sont proclamés épidémiologistes dans les médias pendant la crise du COVID-19…

Liens d’intérêt

L’auteur déclare n’avoir aucun lien d’intérêt concernant les données publiées dans cet article.


1

La cohorte E3N est une étude épidémiologique débutée en 1990, regroupant environ 100 000 femmes française nées entre 1925 et 1950, visant à explorer l’impact de mode de vie, environnement et génétique sur leur santé, notamment le risque de cancers, avec un suivi étendu à leurs enfants et petit-enfants.

2

La cohorte Gazel regroupe 20 000 volontaires d’Electricité de France et de Gaz de France, suivis depuis 1989, pour analyser les facteurs sociaux, professionnels et environnementaux influençant la santé.

3

La cohorte Constances est une cohorte épidémiologique française, regroupant environ 220 000 volontaires, nés entre 1941 et 2000, représentatifs de la population adulte française, visant à fournir des données pour la recherche en santé publique et épidémiologie, avec un suivi basé sur des données des bases médico-administratives nationales, des examens médicaux, questionnaires et une biobanque.

Références

  1. Saracci R. Epidemiology in Wonderland : Big Data and precision medicine. Eur J Epidemiol 2018; 33 : 245–57. [Google Scholar]
  2. Oppenheimer GM. Becoming the Framingham Study. Am J Pub Health, 2005 ; 95 :602–10. [Google Scholar]
  3. Doll R, Peto R, Wheatley K, et al. Mortality in relation to smoking: 40 years’ observations on male British doctors. Br Med J 1994; 309 : 901–11. [Google Scholar]
  4. Richard JL, Ducimetière P, Bonnaud G, et al. Incidence et évaluation du risque des maladies coronaires. L’étude Prospective Parisienne. Arch Mal Cœur Vaiss 1977 ; 70 : 531–40. [Google Scholar]
  5. Dartigues JF, Gagnon M, Michel P et al. Le programme de recherche Paquid sur l’épidémiologie de la démence. Méthodes et résultats initiaux. Rev Neurol 1991 ; 147 : 225–30. [Google Scholar]
  6. Goldberg M, Leclerc A, Bonenfant S, et al. Cohort profile: the GAZEL Cohort Study. Int J Epid 2007 ; 36 : 32–9. [Google Scholar]
  7. Clavel-Chapelon F, Van Liere MJ, Giubout C, et al. E3N, a French cohort study on cancer risk factors. E3N Group. Étude épidémiologique auprès de femmes de l’Éducation Nationale. Eur J Cancer Prev 1997 ; 6 : 473–8. [Google Scholar]
  8. Bordet R, Dantonel JC, Vacaresse E, et al. How has the Future Investment Program stimulated research and innovation in health? Therapie 2022 ; 77:19–24. [Google Scholar]
  9. Zins M, Goldberg M, and the CONSTANCES team. The French CONSTANCES population-based cohort: design, inclusion and follow-up. Eur J Epidemiology 2015 ; 30 : 1317–28. [Google Scholar]
  10. Walport M, Brest P. Sharing research data to improve public health. Lancet 2011 ; 377 :537–9. [Google Scholar]
Marcel Goldberg

Marcel Goldberg
Membre du comité éditorial de 2017 à 2022.

Marcel Goldberg, Professeur émérite d’épidémiologie et de santé publique (Université Paris Cité), est docteur en médecine, en biologie humaine et en mathématiques appliquées. Il a dirigé de 1983 à 2003 une unité de recherche en épidémiologie des risques professionnels et en épidémiologie sociale de l’Inserm. Il a aussi présidé la Commission scientifique spécialisée en épidémiologie de l’Inserm et l’Association des épidémiologistes de langue française. Marcel Goldberg a créé le Département Santé-Travail de l’Institut de veille sanitaire (aujourd’hui Santé publique France). Il a initié les grandes cohortes en population Gazel (20 000 volontaires, mise en place en 1989, suivis depuis plus de 35 ans) et Constances (220 000 personnes, mise en place en 2012) qui jouent le rôle de plateformes de recherche ouvertes à la communauté scientifique et de santé publique. Il est actuellement membre de l’Unité Cohortes épidémiologiques en population (UMS 011, mixte entre Université Paris Cité, INSERM, Université Paris-Saclay, UVSQ), qui conduit les cohortes Gazel et Constances, où il travaille notamment sur les risques d’origine professionnelle.


© 2025 médecine/sciences – Inserm

Licence Creative CommonsArticle publié sous les conditions définies par la licence Creative Commons Attribution License CC-BY (https://creativecommons.org/licenses/by/4.0), qui autorise sans restrictions l’utilisation, la diffusion, et la reproduction sur quelque support que ce soit, sous réserve de citation correcte de la publication originale.

Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.

Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.

Initial download of the metrics may take a while.