Empoisonnement des données : la menace fantôme

par Britt Eva Bjerkvik Haaland - Head of Privacy, Sopra Steria
| minutes de lecture

L'IA repose sur les données — des ensembles vastes et diversifiés qui permettent aux machines de voir, parler et prendre des décisions. Mais que faire lorsque ces données sont détournées et utilisées contre nous ? 

Que se passerait-il si un système de santé piloté par l’IA posait un mauvais diagnostic en raison de données corrompues ? Un défaut imperceptible, mais dont les conséquences seraient potentiellement dramatiques. C'est tout le danger de l'empoisonnement des données : une menace insidieuse qui fragilise l'intelligence sur laquelle nous nous appuyons. 

Ce risque ne menace pas seulement les industries puisque l’IA est devenue incontournable dans des secteurs critiques tels que les véhicules autonomes et le droit. Cela peut altérer la confiance et déstabiliser les bases mêmes de l’innovation moderne. Pour mieux comprendre cette menace grandissante, nous avons rencontré Britt Eva Bjerkvik Haaland, responsable de la protection des données au sein du groupe Sopra Steria, qui nous éclaire sur ces enjeux et les solutions envisageables. 

Pourriez-vous commencer par expliquer ce qu'est l'empoisonnement des données ? 

Britt Eva Bjerkvik Haaland : Lorsque j’y ai été confrontée pour la première fois, l'empoisonnement des données était simplement considéré comme une attaque visant à saboter les systèmes d'IA. Mais la réalité est aujourd'hui plus nuancée. L'empoisonnement des données survient lorsque les données d'entraînement d'un modèle d'IA sont corrompues ou "empoisonnées" par des informations incorrectes. Cela englobe un large éventail d'intentions et de résultats. 

D’un côté, il existe des outils comme Glaze et Nightshade, qui permettent aux artistes de protéger leur propriété intellectuelle. Ils modifient subtilement les pixels d’une image pour que les modèles d'IA les interprètent mal, en voyant un chien au lieu d’un chat par exemple, sans affecter la perception humaine. Ces outils constituent une forme légitime d’empoisonnement des données, dans la mesure où ils préservent les droits des créateurs face à l’essor de l’IA. 

À l’opposé, on trouve des intentions purement malveillantes : empoisonner des données pour perturber les résultats d'un système, provoquer des défaillances opérationnelles, voire mettre en danger les utilisateurs.  

Entre ces deux extrêmes se trouve une zone grise remplie de dilemmes éthiques. Quand l'empoisonnement des données devient-il justifiable et quand franchit-il la limite du nuisible ? C'est une question à laquelle nous devons répondre dans ce paysage en pleine évolution. 

Entrons dans un scénario pratique. Si quelqu'un voulait infiltrer un pipeline d'entraînement d'IA, comment pourrait-il s'y prendre ? 

Britt Eva Bjerkvik Haaland : Les méthodes pour infiltrer un pipeline d'entraînement d'IA sont variées et révèlent les failles dans la collecte et le traitement des données. Déjà, les données d'entraînement proviennent souvent de sources susceptibles d’être compromises : du scraping sur Internet, de l'achat de jeux de données ou de l'utilisation de dépôts ouverts. L'empoisonnement peut se produire à plusieurs étapes : lors de la collecte des données, mais aussi par des manipulations intentionnelles ou même lors des mises à jour du modèle. 

Par exemple, des acteurs malveillants peuvent injecter des données corrompues dans des ensembles de données ouverts, altérant subtilement les informations sur lesquelles les systèmes d'IA se basent. Parfois, il s'agit de données de mauvaise qualité qui passent entre les mailles du filet, mais dans d'autres cas, on fait face à une tentative délibérée de saper l'intégrité du modèle. Même des employés mécontents pourraient modifier des ensembles de données ou manipuler le modèle lui-même, transformant des failles internes en menaces sérieuses. 

Pour mieux comprendre les enjeux, prenons l’exemple des chatbots sur X (anciennement Twitter) devenus racistes après avoir été exposés à des entrées nuisibles. Sans être un cas typique d’empoisonnement des données, il illustre des principes similaires : des données corrompues ou biaisées influencent fondamentalement le comportement de l'IA. 

Pouvez-vous partager des exemples réels d'empoisonnement des données ? 

Britt Eva Bjerkvik Haaland : Les cas réels et documentés d'empoisonnement des données sont rares, surtout que de nombreux incidents ne sont probablement pas signalés. Cependant, il est facile d'imaginer des situations où les conséquences pourraient prendre une tournure dramatique. Prenez les véhicules autonomes, par exemple. Imaginez une voiture lisant un panneau stop comme une limitation de vitesse à cause de données d'entraînement corrompues. C’est une seule information erronée, dont les effets pourraient être catastrophiques. 

Ou considérez le cas d'un avocat new-yorkais qui, en utilisant un outil d'IA pour préparer son dossier, se voit fournir des décisions judiciaires fictives. Ces fausses informations résultent soit d’un empoisonnement des données, soit d’une hallucination (un processus où l’IA génère des éléments imaginaires). Quoi qu'il en soit, cet exemple souligne à quel point les systèmes d'IA deviennent fragiles lorsque l'intégrité des données est compromise. 

Est-il possible pour les entreprises de surveiller les signes d’empoisonnement des données ? 

Britt Eva Bjerkvik Haaland : Absolument. Je dirais même qu’une surveillance continue est primordiale. Les entreprises doivent être attentives à des résultats inhabituels, des biais inattendus ou des anomalies dans le comportement des systèmes. La supervision humaine joue un rôle essentiel dans la détection et la correction efficace de ces problèmes. 

De plus, il est possible d’utiliser des outils comme l’IA explicable, qui rend le processus de prise de décision des modèles plus transparent et peut aider à détecter des anomalies dans les processus décisionnels. Ces informations aident à prévenir l’empoisonnement des données, permettant aux entreprises d’agir proactivement et de maintenir la fiabilité de leurs systèmes. 

Défendre l’IA contre l’empoisonnement des données est-il avant tout une question d’amélioration de la qualité des données, ou cela nécessite-t-il de nouveaux cadres de protection ? 

Britt Eva Bjerkvik Haaland : C’est une combinaison des deux. Des outils comme les systèmes de gestion de la sécurité de l’information ou la gouvernance des données existent déjà, mais l’essentiel reste la sensibilisation. Les professionnels doivent avoir conscience des risques, surtout lorsqu’ils travaillent avec des données open-source ou issues de scraping. 

Les données synthétiques (des ensembles de données générés par IA) sont souvent présentées comme une solution possible, mais elles peuvent aussi hériter de biais ou d’erreurs provenant de leurs sources d’origine, ce qui ne les rend pas non plus totalement fiables. Pour lutter contre l’empoisonnement des données, il est essentiel d’améliorer leur qualité et d’instaurer des cadres adaptés à ces nouvelles menaces. 

Quel conseil donneriez-vous aux décideurs face à l’empoisonnement des données ? 

Britt Eva Bjerkvik Haaland : Mon conseil est de d’abord maîtriser les fondamentaux : une bonne gouvernance des données, des mesures de cybersécurité robustes et une formation adéquate des employés. 

Les décideurs doivent considérer les données comme un actif précieux, tout comme ils le feraient avec des ressources financières. Personne n’investirait des millions sans une analyse approfondie, il en va de même pour la gestion et l’utilisation des données. 

Cette approche ne permet pas seulement de lutter contre l’empoisonnement des données, mais répond aussi à des problèmes plus larges, comme la gestion des biais et la performance des modèles. En renforçant leurs fondations, les organisations assurent une meilleure protection de leurs systèmes d’IA et des résultats plus fiables. 

Une meilleure collaboration entre les acteurs de la société est-elle nécessaire pour relever ces défis ? 

Britt Eva Bjerkvik Haaland : La collaboration à l’échelle de la société est en effet une nécessité. Des bases de données ouvertes et contrôlées seraient profitables à tous mais cela exige une coopération entre gouvernements, chercheurs et entreprises. 

Partager les meilleures pratiques, établir des normes et développer des jeux de données fiables constituent des étapes essentielles à franchir ensemble. 

Assurer la fiabilité des jeux de données passe par le partage des meilleures pratiques et l’adoption de normes robustes. Une approche unifiée et collaborative jouera un rôle clé dans la lutte contre l’empoisonnement des données et la protection de l’intégrité des systèmes d’IA. 

En travaillant ensemble, nous pouvons garantir que les systèmes d’IA sont non seulement sécurisés, mais aussi dignes de confiance. L’avenir de l’IA dépend de l’intégrité de ses données, il s’agit d’une responsabilité collective. 

Search

cybersécurité

data

artificial-intelligence

Contenus associés

Transformation SAP Roquette

Roquette souhaitait remplacer son infrastructure de données existante pour une solution SAP de pointe. Objectifs : briser les silos, harmoniser les processus métier et améliorer l’expérience client.

L’IA au service des collaborateurs d’EDF

EDF, leader mondial de la production d’énergie bas carbone, souhaitait déployer un système innovant qui libère le potentiel de son équipe de support IT et améliore sa qualité de service. La solution : AMY. 

Sopra Steria reconnu leader pour ses services de sécurité stratégique et ses services d’infogérance de sécurité pour les grands comptes par une étude ISG Provider Lens™

Fort de son expertise dans le conseil et de ses 800 experts en cybersécurité, Sopra Steria accompagne ses clients à travers des services de prévention, de protection, de détection et réaction.