De la boîte noire à la boîte blanche

Damien Lacroux

doi:10.1051/medsci/2025194

Home

All issues

Volume 42 / No 1 (Janvier 2026)

Med Sci (Paris), 42 1 (2026) 71-77

Full HTML

IA et santé

Open Access

Issue		Med Sci (Paris) Volume 42, Number 1, Janvier 2026 IA et santé


Page(s)		71 - 77
Section		Repères
DOI		https://doi.org/10.1051/medsci/2025194
Published online		23 January 2026

Med Sci (Paris) 2026; 42 (1) : 71–77

Les limites de la transparence des intelligences artificielles en santé

From black box to white box - The limits of transparency in artificial intelligence IA used in healthcare

Damien Lacroux^*

Univ. Bordeaux, CNRS UMR5800, Bordeaux INP, LaBRI, Talence, France Univ Paris Cité, SPHère UMR 7219, Paris, France

^* This email address is being protected from spambots. You need JavaScript enabled to view it.

Vignette (© Lightwise/123RF).

L’essor des systèmes d’intelligence artificielle (IA) en santé a considérablement accru la capacité des algorithmes à identifier des régularités invisibles à l’œil humain dans des masses de données hétérogènes [1]. Toutefois, cette puissance prédictive s’est souvent construite au prix d’une opacité croissante des processus de décision [2]. Dans des domaines aussi sensibles que le diagnostic médical, la stratification des risques ou la prédiction de réponse aux traitements, cette opacité entre en tension avec les exigences de traçabilité, de justification et de responsabilité propres aux pratiques cliniques.

Face à cette opacité structurelle, diverses méthodes dites d’explicabilité (explainability ou interpretability) ont été développées pour tenter de rendre intelligibles les décisions des modèles complexes. Ces efforts prennent généralement deux formes épistémologiquement distinctes. La première consiste à « blanchir » une boîte noire a posteriori, c’est-à-dire à appliquer une couche interprétative exogène à un modèle initialement opaque. Les outils comme LIME (local interpretable model-agnostic explanations) ou SHAP (shapley additive explanations) illustrent cette stratégie post hoc : ils construisent un second modèle interprétable destiné à mimer localement les comportements du modèle d’origine [3, 4]. Cette architecture à deux étages, qui repose sur une boîte noire d’origine à expliquer avec un algorithme externe, ouvre sur un compromis fragile entre fidélité locale et intelligibilité. L’un des enjeux est de comprendre quel type d’explication fournit ce genre de modèle et quelle est la transparence de l’algorithme explicatif qui est censé blanchir la boîte noire d’origine. À l’inverse, un second paradigme cherche à produire des modèles explicables nativement, dits modèles de boîte blanche (white-box models), dont la structure est conçue dès l’origine pour garantir la transparence : des modèles déterministes (aussi appelés symboliques), basés sur des systèmes à base de règles logiques comme des arbres de décisions ou des régressions interprétables [5, 6]. Dans cette perspective, certaines études développent explicitement des white-box models dont le comportement est préalablement compréhensible, puis testent différents algorithmes d’attribution pour montrer que seul un modèle nativement transparent garantit des explications fiables [7]. Ces approches entendent faire de l’explicabilité un attribut constitutif du modèle, et non un correctif ex post, en misant sur une architecture décisionnelle lisible, traçable et conforme aux normes de rationalité clinique. Cette dichotomie soulève une question centrale que ce travail se propose d’explorer : que signifie réellement « blanchir » une boîte noire en contexte médical, et dans quelle mesure ces deux approches répondent-elles aux exigences épistémiques et cliniques de l’explicabilité ? Jusqu’où les médecins peuvent-ils faire confiance à des outils qui n’éclairent peut-être que partiellement les logiques d’inférence sous-jacentes ? Et peut-on vraiment parler d’explicabilité lorsque celle-ci repose sur des procédés qui semblent eux-mêmes heuristiques et instables ? À travers une analyse critique de ces deux approches de l’explicabilité dans le champ de la santé algorithmique, cet article interroge les promesses et les limites de ce « blanchiment des IA », en confrontant les exigences de rigueur épistémologique à la réalité des usages cliniques.

La boîte noire interprétée… par une autre boîte noire ? Le cas du modèle LIME

Penser la boîte noire : les réseaux neuronaux à l’épreuve de l’interprétation clinique

L’opacité du processus computationnel, connu sous le nom de boîte noire, se manifeste lorsque l’IA ajuste ses marges d’erreur et se corrige. Elle reparamètre simultanément les données en ajustant les poids associés à ses paramètres d’apprentissage [8]. Le problème réside dans le fait que les pondérations attribuées ou réattribuées à chaque donnée lors de ces ajustements sont souvent inconnues ou très difficiles à tracer en raison de la complexité des architectures utilisées [9, 10]. Or, le score final fourni par l’IA dépend des liens qu’elle établit entre ces facteurs, qui sont influencés par ces poids, euxmêmes ajustés de manière complexe et non linéaire. Cette complexité qui ouvre le problème de l’explicabilité rend extrêmement difficile la compréhension et la détermination précise des mécanismes internes, en particulier dans les réseaux neuronaux profonds où des milliers, voire des millions de paramètres interagissent de manière opaque.

Dans le cas des réseaux neuronaux convolutifs (CNN), qui sont largement utilisés en imagerie médicale pour détecter et classer des anomalies comme des tumeurs pulmonaires, chaque couche extrait des caractéristiques de plus en plus abstraites des images (bords, textures, formes complexes, etc.). Cependant, ces caractéristiques ne sont pas directement interprétables par l’humain. À chaque transformation de l’information dans ces couches de neurones intermédiaires, la relation entre les données d’entrée (par exemple, une image de scanner) et la sortie (par exemple, une prédiction de tumeur maligne ou bénigne) devient de moins en moins claire [11, 12]. En fournissant des images d’un scanner thoracique par exemple, un tel modèle peut, avec une précision impressionnante, distinguer entre les nodules cancéreux et non cancéreux. Par exemple, Zhang et al. (2019) ont développé un réseau de neurones convolutif 3D capable de classer des nodules pulmonaires en malin vs bénin avec une sensibilité de ~84 % et une spécificité de ~83 % comparé aux données cliniques réelles [13]. De plus, une méta-analyse récente regroupant 26 études a trouvé une sensibilité globale de 0,93, une spécificité de 0,95, et une AUC (aire sous la courbe) de 0,98 pour la détection de nodules avec des CNN sur des scanners thoraciques [14]. Mais si un clinicien demande comment l’algorithme est arrivé à cette conclusion, il est difficile de fournir une explication qui soit intelligible et fiable. Le modèle a appris à reconnaître des motifs dans des milliers d’images, mais ces motifs sont stockés sous forme de poids mathématiques dans le réseau de neurones, et ces poids sont souvent inaccessibles pour une interprétation humaine. Par conséquent, ni le médecin, ni le chercheur qui a développé le modèle, ne peuvent dire pourquoi une image a été classée d’une certaine manière. Par ailleurs, dans le cadre des systèmes d’IA utilisés en oncologie, les médecins sont placés de la même façon devant un dilemme : ils bénéficient de la puissance prédictive des algorithmes, mais sans comprendre exactement pourquoi un algorithme recommande un certain traitement ou identifie un risque spécifique de récidive. Cela crée un fossé entre la prédiction générée par la machine et l’interprétation clinique nécessaire pour appliquer cette prédiction à la réalité d’un patient [8]. Pour un médecin, ne pas comprendre pourquoi une IA recommande une chimiothérapie particulière ou un type d’immunothérapie peut entraver sa capacité à expliquer et justifier la décision au patient ou même à d’autres collègues. Prenons l’exemple d’une intelligence artificielle utilisée en oncologie pour prédire le risque de récidive d’un cancer du poumon. Supposons qu’elle attribue à un patient un risque de récidive de 70 %. Cette information peut amener le médecin à adopter une stratégie thérapeutique préventive, comme la prescription d’un traitement néo-adjuvant. Toutefois, ce type de décision repose uniquement sur le résultat global de l’algorithme, sans accès aux facteurs explicatifs sous-jacents. Si le modèle IA fonctionne comme une « boîte noire », c’est-à-dire sans fournir d’explications transparentes sur les variables qui ont conduit à cette estimation de 70 %, alors le clinicien est privé de la possibilité d’intervenir sur les causes profondes du risque identifié. Or, si l’algorithme avait permis d’identifier, par exemple, qu’une mutation génétique spécifique sur un allèle donné, ou la prise prolongée d’un certain antidépresseur, avaient été fortement pondérées dans le calcul du risque, cela ouvrirait la voie à des mesures cliniques plus ciblées. Le médecin pourrait alors proposer des tests génétiques proactifs aux patients partageant le même profil génomique, ou engager une révision des protocoles de prescription de l’antidépresseur concerné.

LIME dans le raisonnement médical assisté : boîte noire sur boîte noire ?

Face à l’opacité structurelle des systèmes d’intelligence artificielle, plusieurs méthodes d’explicabilité ont été développées pour rétablir un lien intelligible entre données d’entrée et sorties du modèle. Parmi elles, LIME constitue une approche majeure [3]. Plutôt que d’expliquer globalement un réseau profond, LIME se concentre sur l’explication locale d’une prédiction : à partir d’un exemple cible (de type scanner, profil biologique, etc.), il génère des versions perturbées en modifiant certaines caractéristiques, observe les variations de sortie, pondère ces exemples selon leur proximité avec le cas initial, puis entraîne un modèle simple (souvent une régression linéaire) qui approxime localement le comportement du modèle complexe. Ce modèle linéaire agit comme une loupe décisionnelle, identifiant les variables ayant le plus influencé la prédiction.

Prenons l’exemple d’un patient atteint d’un cancer bronchique non à petites cellules, pour lequel un algorithme doit estimer la réponse à une immunothérapie. Le réseau de neurones, entraîné sur des milliers de cas, prédit une probabilité élevée (78 %) sans explication immédiate. En appliquant LIME, le système masque ou neutralise certaines variables (par exemple, l’expression de PD-L1, la mutation dans le gène EGFR), puis ajuste un modèle linéaire local. Celui-ci révèle que l’expression élevée de PD-L1 et l’absence de mutations KRAS sont des facteurs « répondeurs », tandis qu’une inflammation modérée (CRP) joue comme facteur « réfractaire ». Présentée sous forme graphique, avec les facteurs positifs en bleu et les facteurs négatifs en orange, cette explication permet au clinicien de comprendre pourquoi l’IA recommande l’immunothérapie et d’articuler cette suggestion avec sa propre rationalité.

Cliniquement, LIME fournit une explication « suffisante » pour la décision locale, permettant de formuler un doute, de valider une hypothèse ou d’expliquer la recommandation au patient. Mais ses limites sont importantes : LIME ne dévoile pas les mécanismes internes du modèle, il produit une approximation locale instable, dépendante des choix de perturbation, de métriques de distance ou de pondération [15, 16]. Dans le cas d’images médicales, il impose une segmentation ou « super-pixellisation » qui peut introduire des biais peu compatibles avec les subtilités morphologiques. En outre, l’agrégation des explications locales ne reflète pas nécessairement le comportement global du modèle [10].

On peut ainsi considérer LIME comme une « boîte noire sur boîte noire » : un outil prétendument explicatif, mais fondé sur des heuristiques opaques [17, 18] venant se superposer à l’opacité statistique du modèle initial. Cette superposition conduit à une « opacité épistémique » [19], où l’explication se réduit à une fiction d’intelligibilité, construite localement mais éloignée du réel. À l’inverse, les approches dites de « boîte blanche » visent une intelligibilité native, fondée sur des règles logiques, des arbres de décision explicites ou des systèmes symboliques dont chaque étape est traçable [20]. Le choix entre boîte noire explicable et boîte blanche intrinsèquement transparente engage moins une question technique qu’une conception de la responsabilité et de la confiance dans l’IA médicale.

La boîte blanche à l’épreuve du soin : intelligibilité formelle et pertinence clinique des Bayesian rule lists

Les Bayesian rule lists comme boîte blanche en médecine

Un exemple typique de modèle d’intelligence artificielle de type boîte blanche dans le domaine de la santé est le modèle à base de règles (rule-based model), et plus précisément les Bayesian rule lists (BRL). Ces modèles consistent à représenter les décisions par une liste hiérarchisée de règles conditionnelles simples, par exemple : « si l’âge du patient est > 65 ans et la pression artérielle > 140, alors risque de complication = élevé ». Techniquement, les BRL sont issues d’une approche bayésienne où les règles sont extraites à partir des données via une procédure de recherche guidée par un critère probabiliste [21]. Le modèle parcourt un espace de règles possibles et sélectionne les listes les plus probables en fonction d’une distribution a posteriori qui favorise la simplicité (règles courtes) et la fidélité prédictive [21, 22]. Une fois la liste sélectionnée, la décision pour un individu donné suit un processus déterministe : la première règle applicable dans la liste détermine le résultat. Cette logique séquentielle et hiérarchique permet de suivre pas à pas la décision du modèle. Cette approche offre un haut degré de lisibilité : chaque règle est explicite, traçable et directement compréhensible par un clinicien. Contrairement à LIME, qui fonctionne comme une boîte noire post hoc, en simulant localement le comportement du modèle, les modèles à base de règles présentent une structure transparente par construction [23]. L’ensemble des règles, leur hiérarchie, et leur logique de combinaison sont visibles et interprétables. La relation entre les données d’entrée et la sortie est entièrement gouvernée par des conditions logiques facilement retraçables, ce qui distingue fondamentalement ces modèles des méthodes post hoc comme LIME.

En santé, les BRL ont été mobilisées pour plusieurs tâches critiques relevant du triage clinique, de la prédiction de risques médicaux ou de l’aide à la décision thérapeutique [24]. Ces contextes sont, en apparence, particulièrement adaptés à l’emploi de modèles dits interprétables : les décisions médicales doivent être justifiables rétrospectivement, compréhensibles par des non-spécialistes en apprentissage automatique, tels que les cliniciens, les patients ou les institutions, et compatibles avec des exigences réglementaires de transparence et de traçabilité. Les BRL offrent une structure décisionnelle simple : une liste ordonnée de règles conditionnelles, du type « Si (condition) → Alors (prédiction) », où seule la première règle vérifiée est appliquée [22]. Ce format rappelle les algorithmes cliniques traditionnels, comme les arbres de décision médicaux ou les scores cliniques, ce qui favorise leur acceptabilité dans les milieux de soin. Dans ce cadre, certaines études ont proposé une formulation originale et rigoureuse des listes de règles sous un modèle bayésien hiérarchique. L’objectif était de produire automatiquement des listes de règles à partir de données cliniques, tout en équilibrant trois critères : la précision prédictive, la simplicité structurelle (en nombre de règles et de conditions par règle), et la plausibilité statistique.

Dans leur étude de cas, Six AJ et al. [25] ont par exemple utilisé un jeu de données hospitalier sur le triage des patients admis avec des douleurs thoraciques aux urgences – un scénario typique de décision rapide sous incertitude. L’objectif était de prédire le risque d’événement cardiaque majeur (infarctus, arrêt cardiaque, etc.) afin d’aiguiller les patients vers un niveau de soins adapté. Le modèle boîte blanche BRL construit à partir de ces données a généré une liste de règles explicites, telle que :

Si (ECG anormal) et (CRP > seuil),

alors probabilité d’événement = 85 %

Sinon, si (âge > 65 ans) et (douleur irradiante),

alors probabilité = 72 %

Sinon, si (tous les signes sont normaux),

alors probabilité = 10 %

Cette structure de décision hiérarchique, exclusive et exhaustive est directement interprétable, facilement communicable aux soignants, et exploitable dans un environnement clinique à forte contrainte de temps. Chaque patient est confronté à la première règle qu’il satisfait dans la liste, ce qui rend le processus de décision transparent et déterministe : il est possible, ex post, d’identifier avec précision quelle règle a été activée, quelles conditions ont été remplies, et quelle probabilité prédictive a été attribuée. Cette transparence opérationnelle évite l’effet de boîte noire associé aux modèles plus complexes.

Cependant, cette lisibilité syntaxique ne garantit pas pour autant une intelligibilité épistémique. Si l’on peut sans difficulté retracer le raisonnement d’une prédiction, cela ne signifie pas nécessairement que ce raisonnement est cliniquement pertinent, robuste, ou même interprétable au sens médical.

Figure 1.

Résumé du problème épistémologique lié à l’opacité des modèles d’IA en médecine. Lors de l’utilisation d’outils d’intelligence artificielle d’aide à la décision, les médecins sont fréquemment confrontés à une difficulté épistémologique : comprendre pourquoi et comment l’IA a produit un certain diagnostic ou pronostic. Partie supérieure. Certains systèmes, souvent qualifiés de boîtes noires, sont opaques. En effet, le clinicien n’a pas accès aux mécanismes internes de l’algorithme ; par exemple, à la manière dont les données d’entrée ont été pondérées pour générer une sortie spécifique. Partie centrale : explicabilités. Chercher à « blanchir la boîte noire » revient alors à tenter de concilier deux exigences : d’un côté maintenir la performance du modèle utilisé, et de l’autre rendre intelligibles les relations entre les données d’entrée et le résultat produit. Cette intelligibilité est essentielle, car elle conditionne la capacité du médecin à justifier cliniquement ses décisions. Partie inférieure gauche : explicabilité post hoc. Approches consistant à ouvrir la boîte noire a posteriori. C’est le cas de la méthode LIME (local interpretable modelagnostic explanations), qui mobilise un algorithme externe pour rendre plus compréhensible le fonctionnement du modèle initial. Toutefois, ce second algorithme introduit lui-même une part d’opacité. Le clinicien gagne ainsi en intelligibilité, mais sans accéder à une transparence totale : on parle alors de « boîte grise ». Partie inférieure droite : explicabilité native. D’autres approches visent à concevoir dès l’origine des modèles transparents. Les modèles à base de règles (rule-based models), et notamment les Bayesian rule lists (BRL), en sont un exemple typique dans le domaine de la santé. Cependant, même ces modèles dits boîtes blanches ne garantissent pas une transparence complète. Leur transparence syntaxique (lisibilité des règles) peut en effet masquer une opacité sémantique, c’est-à-dire une difficulté à interpréter cliniquement la signification des règles produites. En somme, le médecin se trouve souvent confronté, non pas à une véritable boîte blanche, mais à une « boîte grise », où coexistent intelligibilité partielle et opacité résiduelle.

La transparence au prix de la simplicité : quand la boîte blanche peine à modéliser le réel

L’un des principaux écueils des modèles BRL tient à la limitation structurelle de leur expressivité. S’ils offrent une lisibilité syntaxique remarquable cette transparence s’obtient au prix d’une capacité de modélisation restreinte. Les BRL reposent sur une logique disjonctive-conjonctive simple, composée de règles logiques élémentaires sur des variables tabulaires, hiérarchisées dans une liste ordonnée [26]. Ce cadre impose des contraintes fortes sur la nature des relations que le modèle peut apprendre. Techniquement, les BRL sont bien adaptés à des relations linéaires ou monotones, et à des effets de seuils facilement identifiables. Cependant, ils peinent à capturer des interactions complexes, non linéaires ou contextuelles entre variables [27], notamment dès que l’on travaille avec des données à haute dimension, comme en imagerie médicale, en génomique, ou dans les dossiers patients longitudinaux. Ces données contiennent souvent des relations statistiques non triviales comme des effets croisés entre biomarqueurs, des interdépendances temporelles, ou signatures multi-échelles, qui nécessitent souvent de développer d’autres approches plus avancées [28]. Or, la structure logique figée des BRL ne permet ni d’intégrer des fonctions continues ou non monotones, ni de représenter des interactions croisées évolutives ou adaptatives. De plus, le processus de construction du modèle repose généralement sur un pré-minage de règles fréquentes, ce qui favorise les configurations majoritaires au détriment des profils cliniquement atypiques mais pertinents.

Un exemple emblématique est fourni par l’étude de Letham et al. [22], qui ont appliqué les BRL à la prédiction du risque d’AVC chez des patients atteints de fibrillation atriale. Le modèle générait une liste hiérarchique de règles simples, telles que :

Si l’âge est ≥ 75 ans et qu’il y a eu un AVC antérieur = risque élevé ; Sinon, si l’âge est ≥ 75 ans = risque modéré, etc.

Bien que ces règles soient compréhensibles et exploitables par des cliniciens, elles reflètent une logique rigide, dans laquelle les seuils sont fixes et les interactions entre facteurs de risque sont traitées de manière additive, voire ignorées. Par exemple, l’interaction connue entre hypertension et diabète, qui potentialise le risque d’AVC, n’est pas capturée explicitement par le modèle. De même, la dynamique temporelle des symptômes ou la gravité des antécédents ne sont pas prises en compte. Ainsi, la transparence obtenue par ce modèle boîte blanche s’accompagne d’une sousmodélisation de la complexité médicale, susceptible de générer des erreurs cliniques dès que l’on s’éloigne des cas typiques ou que l’on traite des données plus riches que de simples tableaux structurés. Les BRL représentent donc une forme de boîte blanche structurellement interprétable mais expressivement limitée. Ils illustrent une tension fondamentale entre intelligibilité et puissance de la modélisation : plus un modèle est conçu pour être simple et lisible, moins il est apte à capturer la complexité des phénomènes sous-jacents. Corollairement, les modèles BRL ont tendance à figer la logique décisionnelle dans des schémas rigides : une fois les règles apprises, leur application est déterministe, sans place pour l’ambiguïté ou la pondération contextuelle.

Boîte blanche par construction : transparence syntaxique, opacité sémantique

Par ailleurs, même lorsque les BRL offrent une transparence syntaxique, c’est-à-dire la possibilité de lire, ligne par ligne, les règles logiques qui structurent la prédiction, cela ne garantit en rien une transparence sémantique, c’est-à-dire une compréhension clinique appropriée de leur fonctionnement. La transparence du modèle, qui consiste à connaître son contenu, ne doit pas être confondue avec son explicabilité, qui vise à comprendre comment il génère un score influençant la décision, ce qui correspond au niveau syntaxique. Cette explicabilité diffère également de l’interprétabilité, qui permet de saisir pourquoi la décision est pertinente dans le domaine clinique, ce qui correspond au niveau sémantique [29]. Plus précisément, la transparence syntaxique signifie que chaque règle est visible, traçable, et évaluable. La transparence sémantique quant à elle suppose que cette règle ait une valeur interprétative dans le langage médical, qu’elle reflète une relation causale, un effet pathophysiologique ou une régularité clinique [30]. Cette exigence dépasse le cadre de la simple lisibilité logique. Or, en médecine, l’interprétabilité ne peut se limiter à la traçabilité formelle des décisions. Les cliniciens cherchent à comprendre pourquoi une décision est prise, autrement dit, à établir sa cohérence avec des mécanismes physiopathologiques, des parcours diagnostiques ou des raisonnements étiologiques, et pas simplement à constater ce que le modèle produit. Une règle peut être statistiquement valide, c’est-àdire performante dans un échantillon d’apprentissage, sans être médicalement intelligible [22].

Un exemple particulièrement éclairant de cette tension entre lisibilité syntaxique et opacité sémantique est l’application des BRL à la prédiction de la survie à 12 mois chez des patients atteints de glioblastome multiforme, déterminée à partir d’un registre hospitalier multicentrique [31]. Le modèle générait des règles simples, formellement compréhensibles, mais dont la signification clinique apparaissait floue.

Illustration d’une règle typique extraite du modèle :

« Si le score de Karnofsky¹ est ≤ 70 et l’âge ≥ 60, la survie prévue est < 12 mois. »

Sur le plan syntaxique, cette règle est parfaitement transparente : elle repose sur deux variables courantes (un score de performance fonctionnelle et l’âge du patient) associées à une prédiction binaire de survie. Mais sur le plan sémantique, cette formulation soulève plusieurs difficultés. D’abord, le score de Karnofsky, bien que standardisé, agrège plusieurs dimensions (le niveau d’autonomie, les comorbidités, l’état neurologique, etc.) en un indice unique. Il est donc polysémique du point de vue clinique. Un score ≤ 70 peut correspondre à des profils très différents selon les patients. Ensuite, l’âge ≥ 60 constitue un seuil arbitraire, qui linéarise un facteur pourtant continu : le vieillissement n’agit pas par paliers nets, et son interaction avec le pronostic dépend de nombreuses variables (la plasticité cérébrale, la tolérance au traitement, les comorbidités, etc.). Enfin, l’interaction entre ces deux variables, modélisée ici comme une conjonction binaire (Si A et B, alors Y), réduit la complexité du pronostic oncologique à une heuristique statistique qui peut négliger d’autres facteurs clés (des biomarqueurs moléculaires, la réponse au traitement, le type de chirurgie, etc.).

Bien que la règle soit lisible sans effort technique, elle n’est ni causale, ni explicative, et son utilité décisionnelle demeure incertaine. Il s’agit d’une approximation statistique construite pour maximiser la performance sur un ensemble d’apprentissage, et non une synthèse d’une connaissance médicale validée. L’explication fournie est syntaxiquement claire, mais sémantiquement fragile : elle ne repose sur aucune justification biologique robuste. Elle fonctionne comme une heuristique inductive, extraite de régularités dans les données, mais ne constitue pas une explication intelligible pour le clinicien. Ce cas illustre l’un des risques majeurs de l’interprétabilité par « boîte blanche » : le modèle est lisible, mais ce qui est lu ne fait pas sens. La transparence apparente masque une opacité d’un autre ordre : celle des fondements cliniques et scientifiques de la décision.

Enfin, l’architecture des BRL repose sur un modèle bayésien hiérarchique, dans lequel la probabilité d’une liste de règles dépend non seulement des données observées, mais aussi de priors définissant la distribution a priori des structures admissibles. Par exemple, dans les BRL, des priors peuvent être posés sur la longueur des listes de règles (comme préférer des modèles courts) ou sur la complexité des règles (comme favoriser des conditions simples). Ces priors influencent la structure finale du modèle, même si les données viennent ensuite les « corriger » ou les ajuster. Ainsi, les priors jouent un rôle double : ils orientent le processus de génération des règles (par exemple en pénalisant les modèles trop complexes), et ils encodent des choix épistémologiques implicites (comme l’idée que « plus court = plus compréhensible »), qui ne sont pas nécessairement justifiés sur le plan médical ou clinique [32, 33]. L’effet boîte blanche est ici trompeur : la fenêtre est peut-être transparente, mais la pièce peut quelquefois se révéler vide de sens pour le clinicien qui regarde à travers.

Outre la tension entre transparence syntaxique et interprétabilité sémantique, les BRL présentent également des limites structurelles face aux modèles d’apprentissage modernes. Conçus pour représenter des relations conditionnelles simples entre variables, ils ne sont pas capables de capturer les interactions non linéaires, les dépendances contextuelles ou les dynamiques temporelles qui caractérisent la plupart des données médicales contemporaines, comme la volumétrie, la longitudinalité ou la multimodalité [34, 35] (→).

(→) Voir m/s n° 5, 2018, page 449

Or, dans les tâches cliniques actuelles, les architectures récurrentes (LSTM², GRU³) se révèlent plus adaptées pour modéliser des séries temporelles longitudinales, tandis que les Transformers⁴ dominent l’analyse d’images et de textes en raison de leur capacité à prendre en compte des dépendances complexes à longue portée [36] (→).

(→) Voir m/s n° 11, 2020, page 1059

De même, les modèles multimodaux et les grands modèles de langage (LLM) permettent d’intégrer simultanément des données hétérogènes issues de l’imagerie, des dossiers médicaux ou de la génomique ; la littérature consacrée au jumeau numérique illustre aussi la nécessité de telles architectures pour capturer la complexité individuelle des patients [37] (→).

(→) Voir m/s n° 12, 2023, page 953

Dans ce contexte, les BRL apparaissent comme structurellement sous-dimensionnés [34] : leur lisibilité syntaxique se paie d’une perte de capacité prédictive lorsqu’il s’agit de traiter des données médicales complexes et massives. Cette faiblesse accentue encore l’opacité sémantique : le clinicien se trouve non seulement devant des règles lisibles mais cliniquement pauvres, mais aussi face à un modèle dont les performances ne sont pas compétitives face aux architectures contemporaines, limitant de fait leur application dans la pratique médicale.

Conclusion

En définitive, la quête de transparence dans le champ de l’intelligence artificielle en santé confronte deux approches de « blanchiment » de la boîte noire, toutes deux limitées. La première, post hoc, consiste à surimposer une explication à un modèle complexe déjà entraîné (comme LIME) : elle produit une interprétation fragile et approximative. La seconde repose sur des modèles dits « boîtes blanches » (comme BRL), dont la structure est lisible et traçable. Mais cette lisibilité formelle ne garantit pas l’intelligibilité clinique : une règle peut être statistiquement valide sans être médicalement significative. Replacer LIME et BRL dans l’état de l’art montre qu’ils ont joué un rôle fondateur dans la réflexion sur l’explicabilité, mais apparaissent aujourd’hui limités face aux architectures modernes, notamment les réseaux neuronaux profonds et les modèles multimodaux. Des méthodes plus récentes, comme SHAP ou les approches mobilisant les grands modèles de langage pour l’explicabilité, offrent des perspectives plus adaptées à l’analyse de systèmes complexes [38]. Pourtant, même ces avancées ne résolvent pas entièrement la tension entre transparence syntaxique et compréhension clinique. En santé, l’enjeu dépasse la performance technique : il s’agit de produire des explications réellement significatives et utiles pour le soin. Une boîte peut ainsi être blanche en surface tout en restant opaque en profondeur.

Liens d’intérêt

L’auteur déclare n’avoir aucun lien d’intérêt concernant les données publiées dans cet article.

Références

Jin D, Sergeeva E, Weng WH, et al. Explainable deep learning in healthcare: a methodological survey from an attribution view. arXiv preprint 2021 ; arXiv:2105.06602. [Google Scholar]
Singh A, Sengupta S, Lakshminarayanan V. Explainable deep learning models in medical image analysis. arXiv preprint 2020 ; arXiv:2003.07319. [Google Scholar]
Ribeiro MT, Singh S, Guestrin C. Why should I trust you? Explaining the predictions of any classifier. Proc 22^nd ACM SIGKDD Int Conf Knowl Discov Data Min 2016 ; 1135–44. [Google Scholar]
Lundberg SM, Lee SI. A unified approach to interpreting model predictions. Adv Neural Inf Process Syst 2017 ; 30 : 4765–74. [Google Scholar]
Rudin C. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nat Mach Intell 2019 ; 1 : 206–15. [Google Scholar]
Murdoch WJ, Singh C, Kumbier K, et al. Interpretable machine learning: definitions, methods, and applications. Proc Natl Acad Sci USA 2019 ; 116 : 22071–80. [Google Scholar]
Hao Y. Evaluating attribution methods using white-box LSTMs. arXiv preprint 2020 ; arXiv:2004.12565. [Google Scholar]
De Souza LA, Mendel R, Strasser S, et al. Convolutional neural networks for the evaluation of cancer in Barrett’s esophagus: explainable AI to lighten up the black box. Comput Biol Med 2021 ; 135 : 104579. [Google Scholar]
Castelvecchi D. Can we open the black box of AI? Nature 2016 ; 538 : 20–3. [Google Scholar]
Van der Linden I, Haned H, Kanoulas E. Global aggregations of local explanations for black box models. arXiv preprint 2019 ; arXiv:1907.03039. [Google Scholar]
Azam S, Montaha S, Fahim KU, et al. Using feature maps to unpack the CNN black box theory with two medical datasets of different modality. Intell Syst Appl 2023 ; 18 : 200233. [Google Scholar]
Salahuddin Z, Woodruff HC, Chatterjee A, et al. Transparency of deep neural networks for medical image analysis: a review of interpretability methods. Comput Biol Med 2022 ; 140 : 105111. [Google Scholar]
Zhang Z, Chen P, McGough, et al. Toward an expert level of lung cancer detection and classification using a deep convolutional neural network. The Oncologist 2019 ; 24 : 1159–66. [Google Scholar]
Zhang X, Liu B, Liu K, Wang, L. The diagnosis performance of convolutional neural network in the detection of pulmonary nodules: a systematic review and meta-analysis. Acta Radiologica 2023 ; 64 : 1680–90. [Google Scholar]
Zafar MR, Khan NM. Deterministic local interpretable model-agnostic explanations for stable explainability. Mach Learn Model Extract 2021 ; 3 : 525–41. [Google Scholar]
Zhang Y, Song K, Sun Y, et al. Why should you trust my explanation? Understanding uncertainty in LIME explanations. arXiv preprint 2019 ; arXiv:1904.12991. [Google Scholar]
Rahnama AH, Boström H. A study of data and label shift in the LIME framework. arXiv preprint 2019 ; arXiv:1911.11371. [Google Scholar]
Venkatsubramaniam B, Baruah PK. Comparative study of XAI using formal concept lattice and LIME. ICTACT J Soft Comput 2022 ; 13 : 2782–91. [Google Scholar]
Humphreys P. Extending ourselves: computational science, empiricism, and scientific method. Oxford: Oxford Univ Press, 2004. [Google Scholar]
Bach S, Binder A, Montavon G, et al. On pixel-wise explanations for non-linear classifier decisions by layer-wise relevance propagation. PLoS One 2015 ; 10 : e0130140. [Google Scholar]
Yang H, Rudin C, Seltzer M. Scalable Bayesian rule lists. arXiv preprint 2016 ; arXiv:1602.08610. [Google Scholar]
Letham B, Rudin C, McCormick TH, et al. Interpretable classifiers using rules and Bayesian analysis: building a better stroke prediction model. Ann Appl Stat 2015 ; 9 : 1350–71. [Google Scholar]
Atzmueller M, Fürnkranz J, Kliegr T, et al. Explainable and interpretable machine learning and data mining. Data Min Knowl Discov 2024 ; 38 : 2571–95. [Google Scholar]
Nwoke U, Farooqui M, Oleson J, et al. Bayesian modeling framework for optimizing pre-hospital stroke triage decisions. J Appl Stat 2024 ; 1–23. [Google Scholar]
Six AJ, Backus BE, Kelder JC. Chest pain in the emergency room: value of the HEART score. Neth Heart J 2008 ; 16 : 191–6. [Google Scholar]
Friedman JH, Popescu BE. Predictive learning via rule ensembles. Ann Appl Stat 2008 ; 2 : 916–54. [Google Scholar]
Scheipl F, Kneib T, Fahrmeir L. Penalized likelihood and Bayesian function selection in regression models. AStA Adv Stat Anal 2013 ; 97 : 349–85. [Google Scholar]
Cai X, McEwen JD, Pereyra M. Proximal nested sampling for high-dimensional Bayesian model selection. Stat Comput 2022 ; 32 : 87. [Google Scholar]
Tomova GD, Gilthorpe MS, Arriagada Bruneau, et al. Distinguishing the transparency, explainability, and interpretability of algorithms. J Epidemiol Community Health 2022 ; 76 : A66. [Google Scholar]
Silva V, Costa M, Oliveira E. On the semantic interpretability of artificial intelligence models. arXiv preprint 2019 ; arXiv:1905.10615. [Google Scholar]
Charlton CE, Poon MTC, Brennan PM, et al. Interpretable machine learning classifiers for brain tumour survival prediction. arXiv preprint 2021 ; arXiv:2105.05859. [Google Scholar]
Bhattacharyya A, Pal S, Mitra R, et al. Applications of Bayesian shrinkage prior models in clinical research with categorical responses. BMC Med Res Methodol 2022 ; 22 : 251. [Google Scholar]
Gelman A, Simpson D, Betancourt M. The prior can generally only be understood in the context of the likelihood. Bayesian Anal 2017 ; 12 : 1–15. [Google Scholar]
Polton D. Les données de santé. Med Sci (Paris) 2018 ; 34 : 449–55. [CrossRef] [EDP Sciences] [PubMed] [Google Scholar]
Gehrmann S, Dernoncourt F, Li Y, et al.. Comparing rule-based and deep learning models for patient phenotyping. arXiv preprint 2017 ; arXiv:1703.08705. [Google Scholar]
Jean A. Une brève introduction à l’intelligence artificielle. Med Sci (Paris) 2020 ; 36 : 1059–67. [CrossRef] [EDP Sciences] [PubMed] [Google Scholar]
Dumas M, Fay AF, Charpentier E, Matricon J. Le jumeau numérique en santé – État des lieux et perspectives d’application à l’hôpital. Med Sci (Paris) 2023 ; 39 : 953–95. [CrossRef] [EDP Sciences] [PubMed] [Google Scholar]
Bilal A, Ebert D, Lin B. LLMs for explainable AI: a comprehensive survey. arXiv preprint 2025 ; arXiv:2504.00125. [Google Scholar]

¹

Le score de Karnofsky est une échelle clinique allant de 0 à 100, utilisée pour évaluer l’autonomie fonctionnelle et l’état général d’un patient, notamment en oncologie. Un score de 100 correspond à une pleine autonomie sans symptôme, tandis qu’un score de 0 indique le décès. Cette échelle permet d’estimer la capacité d’un patient à supporter un traitement, de guider les décisions thérapeutiques et de prédire le pronostic. Bien qu’utile, le score reste une mesure globale, partiellement subjective, qui agrège diverses dimensions cliniques (mobilité, cognition, comorbidités), ce qui peut en limiter la portée explicative dans des contextes complexes.

²

Long Short term memory. Ces réseaux sont une variation des réseaux de neurone récurrents (RNN). Ils introduisent une nouvelle entité (la cellule mémoire) qui permet au réseau de stocker et d’accéder à des informations sur une période étendue.

³

Gated recurrent unit. Les réseaux GRU sont une variante des LSTM qui permet de sélectionner les informations pertinentes à conserver dans leur état interne.

⁴

Ce sont des réseaux qui n’utilisent par des RNN et permettent de transformer une séquence donnée d’éléments en une autre séquence, utilisés lors des analyses de textes ou de traduction.

Article publié sous les conditions définies par la licence Creative Commons Attribution License CC-BY (https://creativecommons.org/licenses/by/4.0), qui autorise sans restrictions l’utilisation, la diffusion, et la reproduction sur quelque support que ce soit, sous réserve de citation correcte de la publication originale.

Liste des figures

Figure 1.

Résumé du problème épistémologique lié à l’opacité des modèles d’IA en médecine. Lors de l’utilisation d’outils d’intelligence artificielle d’aide à la décision, les médecins sont fréquemment confrontés à une difficulté épistémologique : comprendre pourquoi et comment l’IA a produit un certain diagnostic ou pronostic. Partie supérieure. Certains systèmes, souvent qualifiés de boîtes noires, sont opaques. En effet, le clinicien n’a pas accès aux mécanismes internes de l’algorithme ; par exemple, à la manière dont les données d’entrée ont été pondérées pour générer une sortie spécifique. Partie centrale : explicabilités. Chercher à « blanchir la boîte noire » revient alors à tenter de concilier deux exigences : d’un côté maintenir la performance du modèle utilisé, et de l’autre rendre intelligibles les relations entre les données d’entrée et le résultat produit. Cette intelligibilité est essentielle, car elle conditionne la capacité du médecin à justifier cliniquement ses décisions. Partie inférieure gauche : explicabilité post hoc. Approches consistant à ouvrir la boîte noire a posteriori. C’est le cas de la méthode LIME (local interpretable modelagnostic explanations), qui mobilise un algorithme externe pour rendre plus compréhensible le fonctionnement du modèle initial. Toutefois, ce second algorithme introduit lui-même une part d’opacité. Le clinicien gagne ainsi en intelligibilité, mais sans accéder à une transparence totale : on parle alors de « boîte grise ». Partie inférieure droite : explicabilité native. D’autres approches visent à concevoir dès l’origine des modèles transparents. Les modèles à base de règles (rule-based models), et notamment les Bayesian rule lists (BRL), en sont un exemple typique dans le domaine de la santé. Cependant, même ces modèles dits boîtes blanches ne garantissent pas une transparence complète. Leur transparence syntaxique (lisibilité des règles) peut en effet masquer une opacité sémantique, c’est-à-dire une difficulté à interpréter cliniquement la signification des règles produites. En somme, le médecin se trouve souvent confronté, non pas à une véritable boîte blanche, mais à une « boîte grise », où coexistent intelligibilité partielle et opacité résiduelle.

Dans le texte

Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.

Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.

Initial download of the metrics may take a while.

[R1] Jin D, Sergeeva E, Weng WH, et al. Explainable deep learning in healthcare: a methodological survey from an attribution view. arXiv preprint 2021 ; arXiv:2105.06602. [Google Scholar]

[R2] Singh A, Sengupta S, Lakshminarayanan V. Explainable deep learning models in medical image analysis. arXiv preprint 2020 ; arXiv:2003.07319. [Google Scholar]

[R3] Ribeiro MT, Singh S, Guestrin C. Why should I trust you? Explaining the predictions of any classifier. Proc 22^nd ACM SIGKDD Int Conf Knowl Discov Data Min 2016 ; 1135–44. [Google Scholar]

[R4] Lundberg SM, Lee SI. A unified approach to interpreting model predictions. Adv Neural Inf Process Syst 2017 ; 30 : 4765–74. [Google Scholar]

[R5] Rudin C. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nat Mach Intell 2019 ; 1 : 206–15. [Google Scholar]

[R6] Murdoch WJ, Singh C, Kumbier K, et al. Interpretable machine learning: definitions, methods, and applications. Proc Natl Acad Sci USA 2019 ; 116 : 22071–80. [Google Scholar]

[R7] Hao Y. Evaluating attribution methods using white-box LSTMs. arXiv preprint 2020 ; arXiv:2004.12565. [Google Scholar]

[R8] De Souza LA, Mendel R, Strasser S, et al. Convolutional neural networks for the evaluation of cancer in Barrett’s esophagus: explainable AI to lighten up the black box. Comput Biol Med 2021 ; 135 : 104579. [Google Scholar]

[R9] Castelvecchi D. Can we open the black box of AI? Nature 2016 ; 538 : 20–3. [Google Scholar]

[R10] Van der Linden I, Haned H, Kanoulas E. Global aggregations of local explanations for black box models. arXiv preprint 2019 ; arXiv:1907.03039. [Google Scholar]

[R11] Azam S, Montaha S, Fahim KU, et al. Using feature maps to unpack the CNN black box theory with two medical datasets of different modality. Intell Syst Appl 2023 ; 18 : 200233. [Google Scholar]

[R12] Salahuddin Z, Woodruff HC, Chatterjee A, et al. Transparency of deep neural networks for medical image analysis: a review of interpretability methods. Comput Biol Med 2022 ; 140 : 105111. [Google Scholar]

[R13] Zhang Z, Chen P, McGough, et al. Toward an expert level of lung cancer detection and classification using a deep convolutional neural network. The Oncologist 2019 ; 24 : 1159–66. [Google Scholar]

[R14] Zhang X, Liu B, Liu K, Wang, L. The diagnosis performance of convolutional neural network in the detection of pulmonary nodules: a systematic review and meta-analysis. Acta Radiologica 2023 ; 64 : 1680–90. [Google Scholar]

[R15] Zafar MR, Khan NM. Deterministic local interpretable model-agnostic explanations for stable explainability. Mach Learn Model Extract 2021 ; 3 : 525–41. [Google Scholar]

[R16] Zhang Y, Song K, Sun Y, et al. Why should you trust my explanation? Understanding uncertainty in LIME explanations. arXiv preprint 2019 ; arXiv:1904.12991. [Google Scholar]

[R17] Rahnama AH, Boström H. A study of data and label shift in the LIME framework. arXiv preprint 2019 ; arXiv:1911.11371. [Google Scholar]

[R18] Venkatsubramaniam B, Baruah PK. Comparative study of XAI using formal concept lattice and LIME. ICTACT J Soft Comput 2022 ; 13 : 2782–91. [Google Scholar]

[R19] Humphreys P. Extending ourselves: computational science, empiricism, and scientific method. Oxford: Oxford Univ Press, 2004. [Google Scholar]

[R20] Bach S, Binder A, Montavon G, et al. On pixel-wise explanations for non-linear classifier decisions by layer-wise relevance propagation. PLoS One 2015 ; 10 : e0130140. [Google Scholar]

[R21] Yang H, Rudin C, Seltzer M. Scalable Bayesian rule lists. arXiv preprint 2016 ; arXiv:1602.08610. [Google Scholar]

[R22] Letham B, Rudin C, McCormick TH, et al. Interpretable classifiers using rules and Bayesian analysis: building a better stroke prediction model. Ann Appl Stat 2015 ; 9 : 1350–71. [Google Scholar]

[R23] Atzmueller M, Fürnkranz J, Kliegr T, et al. Explainable and interpretable machine learning and data mining. Data Min Knowl Discov 2024 ; 38 : 2571–95. [Google Scholar]

[R24] Nwoke U, Farooqui M, Oleson J, et al. Bayesian modeling framework for optimizing pre-hospital stroke triage decisions. J Appl Stat 2024 ; 1–23. [Google Scholar]

[R25] Six AJ, Backus BE, Kelder JC. Chest pain in the emergency room: value of the HEART score. Neth Heart J 2008 ; 16 : 191–6. [Google Scholar]

[R26] Friedman JH, Popescu BE. Predictive learning via rule ensembles. Ann Appl Stat 2008 ; 2 : 916–54. [Google Scholar]

[R27] Scheipl F, Kneib T, Fahrmeir L. Penalized likelihood and Bayesian function selection in regression models. AStA Adv Stat Anal 2013 ; 97 : 349–85. [Google Scholar]

[R28] Cai X, McEwen JD, Pereyra M. Proximal nested sampling for high-dimensional Bayesian model selection. Stat Comput 2022 ; 32 : 87. [Google Scholar]

[R29] Tomova GD, Gilthorpe MS, Arriagada Bruneau, et al. Distinguishing the transparency, explainability, and interpretability of algorithms. J Epidemiol Community Health 2022 ; 76 : A66. [Google Scholar]

[R30] Silva V, Costa M, Oliveira E. On the semantic interpretability of artificial intelligence models. arXiv preprint 2019 ; arXiv:1905.10615. [Google Scholar]

[R31] Charlton CE, Poon MTC, Brennan PM, et al. Interpretable machine learning classifiers for brain tumour survival prediction. arXiv preprint 2021 ; arXiv:2105.05859. [Google Scholar]

[R32] Bhattacharyya A, Pal S, Mitra R, et al. Applications of Bayesian shrinkage prior models in clinical research with categorical responses. BMC Med Res Methodol 2022 ; 22 : 251. [Google Scholar]

[R33] Gelman A, Simpson D, Betancourt M. The prior can generally only be understood in the context of the likelihood. Bayesian Anal 2017 ; 12 : 1–15. [Google Scholar]

[R34] Polton D. Les données de santé. Med Sci (Paris) 2018 ; 34 : 449–55. [CrossRef] [EDP Sciences] [PubMed] [Google Scholar]

[R35] Gehrmann S, Dernoncourt F, Li Y, et al.. Comparing rule-based and deep learning models for patient phenotyping. arXiv preprint 2017 ; arXiv:1703.08705. [Google Scholar]

[R36] Jean A. Une brève introduction à l’intelligence artificielle. Med Sci (Paris) 2020 ; 36 : 1059–67. [CrossRef] [EDP Sciences] [PubMed] [Google Scholar]

[R37] Dumas M, Fay AF, Charpentier E, Matricon J. Le jumeau numérique en santé – État des lieux et perspectives d’application à l’hôpital. Med Sci (Paris) 2023 ; 39 : 953–95. [CrossRef] [EDP Sciences] [PubMed] [Google Scholar]

[R38] Bilal A, Ebert D, Lin B. LLMs for explainable AI: a comprehensive survey. arXiv preprint 2025 ; arXiv:2504.00125. [Google Scholar]