S’il est souvent difficile de définir précisément ce qu’est l’IA, on peut au moins s’accorder à dire qu’elle est présente dans un nombre élevé et croissant de systèmes logiciels. Du point de vue de la cybersécurité, il est pertinent de restreindre le champ de l’IA à son sous-domaine le plus célèbre : l’apprentissage statistique, ou machine learning. En effet, là où les systèmes experts et autres algorithmes de recherche présentent typiquement les mêmes failles que n’importe quel autre logiciel, un système reposant sur un modèle issu d’un apprentissage statistique est vulnérable à de nouvelles catégories d’attaques. Ces dernières doivent alors être intégrées à toute analyse ou stratégie de gestion du risque cyber. Dans la suite de cet article, on désignera donc par “système d’IA” un système logiciel dont l’un des composants implémente un modèle construit par apprentissage statistique1.
Empoisonnement, évasion, extraction : le triple goût du risque
On regroupe typiquement en trois grandes familles les attaques spécifiques aux systèmes d’IA (voir figure 1). Tout d’abord, l’empoisonnement consiste à manipuler les données d’entraînement afin de provoquer un comportement spécifique de la part du modèle. Par une telle méthode, un attaquant pourrait par exemple influencer l’entraînement d’un détecteur de fraude bancaire pour le rendre incapable d’identifier un mode opératoire spécifique, et ainsi rendre ce mode opératoire indétectable. Les attaques par évasion visent également à obtenir un résultat inattendu de la part du modèle, mais en agissant uniquement sur les données d’inférence : il s’agit alors de trouver et d’exploiter les inévitables erreurs de prédiction commises par tout modèle, quelles que soient ses données d’entraînement. Ces attaques procèdent souvent par itérations successives, en partant d’une entrée initiale que l’on modifie peu à peu jusqu’à obtenir la sortie désirée. Elles nécessitent donc un accès étendu au modèle ciblé lors de cette phase d’optimisation. Un tel accès n’est pas toujours à la portée de l’attaquant, mais il l’est par exemple dans le cas d’un antivirus : après avoir installé ce dernier sur sa machine, l’attaquant peut librement modifier son logiciel malveillant jusqu’à ce qu’il ne soit plus détecté. Enfin, on regroupe sous le nom d’extraction l’ensemble des attaques visant à inférer tout ou partie des données d’entraînement ou des paramètres du modèle à partir de couples entrée-sortie bien choisis. Les attaques par inférence d’appartenance sont un exemple typique : en exploitant le fait que les modèles attribuent généralement un score de confiance plus élevé à une prédiction si elle porte sur un exemple déjà vu pendant l’entraînement, ces attaques permettent de déterminer si un modèle a été entraîné sur une donnée spécifique. Cela peut s’avérer problématique lorsque le jeu de données d’entraînement contient des données sensibles, comme des informations relatives à l’état de santé d’un individu.
Pour vous abonner, rendez-vous sur le site de votre association partenaire ou cliquer ici.