Cybersécurité des systèmes d’IA

Panorama des risques et vulnérabilités

Par Corentin Larroche (P14)

Numéro#529

Mis en ligne le 13/11/2025

Le règlement européen sur l’intelligence artificielle (AI Act, voir l’article de Xavier Leonetti) impose, parmi d’autres mesures, la prise en compte de la cybersécurité des systèmes d’IA à partir d’un certain niveau de risque. Si la sécurisation de tels systèmes repose en partie sur des mesures déjà appliquées aux systèmes d’information classiques, des vulnérabilités résultant du fonctionnement spécifique de l’IA doivent également être prises en compte.

S’il est souvent difficile de définir précisément ce qu’est l’IA, on peut au moins s’accorder à dire qu’elle est présente dans un nombre élevé et croissant de systèmes logiciels. Du point de vue de la cybersécurité, il est pertinent de restreindre le champ de l’IA à son sous-domaine le plus célèbre : l’apprentissage statistique, ou machine learning. En effet, là où les systèmes experts et autres algorithmes de recherche présentent typiquement les mêmes failles que n’importe quel autre logiciel, un système reposant sur un modèle issu d’un apprentissage statistique est vulnérable à de nouvelles catégories d’attaques. Ces dernières doivent alors être intégrées à toute analyse ou stratégie de gestion du risque cyber. Dans la suite de cet article, on désignera donc par “système d’IA” un système logiciel dont l’un des composants implémente un modèle construit par apprentissage statistique¹.

Empoisonnement, évasion, extraction : le triple goût du risque

On regroupe typiquement en trois grandes familles les attaques spécifiques aux systèmes d’IA (voir figure 1). Tout d’abord, l’empoisonnement consiste à manipuler les données d’entraînement afin de provoquer un comportement spécifique de la part du modèle. Par une telle méthode, un attaquant pourrait par exemple influencer l’entraînement d’un détecteur de fraude bancaire pour le rendre incapable d’identifier un mode opératoire spécifique, et ainsi rendre ce mode opératoire indétectable. Les attaques par évasion visent également à obtenir un résultat inattendu de la part du modèle, mais en agissant uniquement sur les données d’inférence : il s’agit alors de trouver et d’exploiter les inévitables erreurs de prédiction commises par tout modèle, quelles que soient ses données d’entraînement. Ces attaques procèdent souvent par itérations successives, en partant d’une entrée initiale que l’on modifie peu à peu jusqu’à obtenir la sortie désirée. Elles nécessitent donc un accès étendu au modèle ciblé lors de cette phase d’optimisation. Un tel accès n’est pas toujours à la portée de l’attaquant, mais il l’est par exemple dans le cas d’un antivirus : après avoir installé ce dernier sur sa machine, l’attaquant peut librement modifier son logiciel malveillant jusqu’à ce qu’il ne soit plus détecté. Enfin, on regroupe sous le nom d’extraction l’ensemble des attaques visant à inférer tout ou partie des données d’entraînement ou des paramètres du modèle à partir de couples entrée-sortie bien choisis. Les attaques par inférence d’appartenance sont un exemple typique : en exploitant le fait que les modèles attribuent généralement un score de confiance plus élevé à une prédiction si elle porte sur un exemple déjà vu pendant l’entraînement, ces attaques permettent de déterminer si un modèle a été entraîné sur une donnée spécifique. Cela peut s’avérer problématique lorsque le jeu de données d’entraînement contient des données sensibles, comme des informations relatives à l’état de santé d’un individu.

Le reste de ce contenu est réservé aux abonnés...

Pour vous abonner, rendez-vous sur le site de votre association partenaire ou cliquer ici.

Empoisonnement, évasion, extraction : le triple goût du risque

Cybersécurité

introduction

De Pegasus à Predator

10 ans d’attaques contre la société civile