Intelligence artificielle biomédicale

Intelligence artificielle et génétique : quand l’origine ancestrale fausse les algorithmes

Par Dr. Marco V. Benavides Sánchez.

L’intelligence artificielle (IA) transforme peu à peu la manière dont nous analysons le génome humain. Grâce aux techniques d’apprentissage profond (deep learning), il est désormais possible d’examiner des millions de variations génétiques et de détecter des motifs invisibles à l’œil humain. Mais un facteur souvent négligé pourrait fausser ces analyses : la structure populationnelle, c’est-à-dire les liens ancestraux et familiaux entre les individus dont les données génétiques sont étudiées.

Un article récent publié dans le Journal of Biomedical Informatics (2025) par Gabrielle Dagasso, Matthias Wilms, Raissa Souza et Nils D. Forkert met en lumière ce problème. Leur question est simple mais cruciale : les modèles d’IA tiennent-ils compte de l’origine génétique des individus ? Et si ce n’est pas le cas, quels biais cela peut-il introduire ?


🧭 Comprendre la structure populationnelle

Lorsque les généticiens comparent des génomes, ils ne cherchent pas uniquement des mutations associées à des maladies. Ils doivent aussi considérer que deux personnes peuvent partager des segments d’ADN simplement parce qu’elles ont des ancêtres communs ou appartiennent à un même groupe ethnique.

Ce phénomène, appelé structure populationnelle, est bien connu en génétique classique. Si on l’ignore, on risque de croire qu’une variation génétique est liée à une maladie, alors qu’elle est simplement plus fréquente dans une population donnée. C’est un peu comme confondre un accent régional avec un symptôme médical.


🤖 L’IA face à un vieux problème

Dans les études génétiques traditionnelles, il est acquis qu’il faut corriger les biais liés à la structure populationnelle. Pourtant, dans les recherches récentes utilisant l’IA, cette précaution est souvent oubliée.

Pourquoi ? Peut-être parce que les modèles de deep learning sont perçus comme suffisamment puissants pour détecter les bons signaux, ou parce que prendre en compte l’origine ancestrale complique les calculs.

L’équipe de Dagasso a voulu tester cette hypothèse : les modèles d’IA sont-ils vraiment insensibles à la structure populationnelle ? Ou apprennent-ils des choses erronées sans qu’on s’en rende compte ?


🧪 Une expérience en deux volets

Pour répondre à cette question, les chercheurs ont conçu un modèle d’IA capable de classer des individus selon leurs données génétiques, en se basant sur des polymorphismes nucléotidiques simples (SNPs), c’est-à-dire de petites variations dans l’ADN.

Ils ont utilisé deux types de données :

  • Des données simulées, permettant de contrôler précisément le degré de parenté entre les individus.
  • Des données réelles, reflétant la diversité génétique de populations humaines authentiques.

Ils ont ensuite analysé les résultats à l’aide de techniques d’IA explicable (explainable AI), qui permettent de comprendre quelles variations génétiques influencent les décisions du modèle.


📊 Des résultats nuancés

Premier constat : la structure populationnelle n’a pas fortement affecté la précision globale du modèle. Autrement dit, même sans correction, l’IA semblait bien fonctionner.

Mais en y regardant de plus près, les chercheurs ont découvert un phénomène préoccupant. Les modèles qui ne prenaient pas en compte l’origine ancestrale se concentraient sur des variations génétiques liées à l’ethnicité, plutôt qu’à la maladie étudiée.

Ce comportement est connu sous le nom de shortcut learning : l’IA optimise ses résultats en utilisant des indices faciles, mais trompeurs. C’est comme un élève qui reconnaît son manuel scolaire à sa couverture, sans en lire le contenu.


⚠️ Pourquoi c’est problématique

Un modèle qui se base sur des signaux ancestraux au lieu de vrais biomarqueurs peut donner de bons résultats dans une base de données, mais échouer dans une autre population. Cela peut entraîner :

  • Des faux positifs : des variations génétiques faussement associées à une maladie.
  • Des faux négatifs : des mutations réellement pertinentes ignorées par le modèle.
  • Des erreurs de généralisation : un algorithme efficace en Europe pourrait être inutile en Afrique ou en Asie.

Dans le cadre de la médecine personnalisée, ces erreurs peuvent avoir des conséquences graves sur les diagnostics, les traitements et les politiques de santé.


🛠️ Vers des modèles plus fiables

Les auteurs ne rejettent pas l’usage de l’IA en génomique. Au contraire, ils montrent que les performances peuvent rester élevées. Mais ils insistent sur un point essentiel : il faut s’assurer que le modèle apprend les bonnes choses.

Ils proposent plusieurs pistes :

  • Intégrer explicitement l’ancestralité dans le traitement des données.
  • Concevoir des architectures qui pénalisent l’usage de signaux liés à l’origine ethnique.
  • Utiliser l’IA explicable pour vérifier que les décisions reposent sur des biomarqueurs pertinents.
  • Tester les modèles sur plusieurs populations pour garantir leur robustesse.

🌍 Une IA plus juste pour une médecine plus humaine

À l’heure où l’intelligence artificielle progresse à grande vitesse, il est tentant de se fier uniquement aux chiffres. Mais comme le montre cette étude, il est essentiel de comprendre comment et pourquoi les modèles prennent leurs décisions.

La génomique et l’IA ont le potentiel de révolutionner la médecine. Mais ce potentiel ne se réalisera que si les algorithmes sont conçus avec rigueur, transparence et équité. Sinon, nous risquons de prendre des décisions médicales basées sur des illusions statistiques.

Le travail de Dagasso et ses collègues est un rappel salutaire : même à l’ère du deep learning, les vieux biais persistent… et doivent être combattus avec sérieux.


Pour en savoir plus :
Dagasso, G., Wilms, M., Souza, R., & Forkert, N. D. (2025). Accounting for population structure in deep learning models for genomic analysis. Journal of Biomedical Informatics, 169, 104873. https://doi.org/10.1016/j.jbi.2025.104873


#ArtificialIntelligence #Medicine #Surgery #Medmultilingua

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *