Données synthétiques : solution ou problème ?

par Susannah Matschke - Head of Data & AI, UK
| minutes de lecture

La promesse des « données pour tous » soulève des inquiétudes concernant leur qualité, leur quantité et leur biais. Susannah Matschke, directrice des données et de l'IA chez Sopra Steria Next au Royaume-Uni, s'interroge : les données synthétiques représentent-elles le salut de l'IA ou son prochain défi ?

L'intelligence artificielle générative a un appétit insatiable pour les données. À mesure que les modèles deviennent plus volumineux et plus sophistiqués, leur besoin de données d'entraînement croît de façon exponentielle. Pourtant, les entreprises du monde entier font face à un défi commun : le manque de jeux de données de haute qualité et suffisamment diversifiés pour alimenter efficacement leurs systèmes d'IA. C'est dans ce contexte qu'interviennent les données synthétiques : des informations générées artificiellement qui reproduisent les schémas du monde réel sans compromettre la vie privée ni nécessiter des processus de collecte coûteux.

Mais alors que cette solution potentielle à la pénurie de données pour l'IA gagne en popularité, des questions cruciales émergent : ne risquons-nous pas de résoudre un problème pour en créer d'autres ? Les données générées artificiellement peuvent-elles réellement tenir la promesse des « données pour tous », ou nous dirigeons-nous vers ce que le critique technologique canadien Cory Doctorow appelle une « crise coprophagique de l'IA », c’est-à-dire, des systèmes qui se nourrissent de leurs propres déchets numériques ?

Le dilemme des données : une rareté à l'ère de l'abondance

Le paysage actuel de l'IA présente un paradoxe frappant. Alors que nous générons plus de données que jamais auparavant, l'accès à des jeux de données représentatifs et de qualité demeure un défi majeur pour l'entraînement des modèles. Les contraintes réglementaires sur la vie privée, les coûts élevés de collecte des données et la rareté des cas extrêmes dans les données réelles créent des goulets d'étranglement qui freinent considérablement le développement de l'IA.

« Les données synthétiques ont trouvé leur place dans l'IA parce que d'énormes quantités de données sont nécessaires pour entraîner les algorithmes », explique Susannah Matschke, directrice des données et de l'IA chez Sopra Steria Next au Royaume-Uni. « Lorsqu'il n'y a pas suffisamment de données ou que leur qualité n'est pas adéquate pour construire les modèles souhaités, c'est précisément là que les données synthétiques interviennent. »

Cette pénurie est particulièrement marquée dans les secteurs réglementés comme la santé ou la finance, où la sensibilité des données rend leur partage extrêmement complexe. Imaginons une entreprise pharmaceutique tentant de développer un traitement révolutionnaire. Les algorithmes sont prêts à identifier des composés prometteurs, mais un obstacle majeur se dresse : l'accès aux données réelles des patients est strictement restreint par la réglementation, et les données disponibles ne représentent qu'une population limitée. Le temps presse, des vies sont en jeu, et la collecte traditionnelle de données pourrait s'étaler sur des années. Les données synthétiques permettent alors de débloquer le développement de l'IA tout en respectant scrupuleusement la confidentialité et les normes réglementaires.

La promesse des « données pour tous »

Les données synthétiques ne constituent pas seulement une solution technique de rechange ; elles portent en elles une vision démocratique du développement de l'IA. En générant des jeux de données artificiels qui préservent les propriétés statistiques essentielles sans inclure d'identifiants personnels, les organisations peuvent partager des données d'entraînement précieuses sans compromettre la vie privée.

« Les données synthétiques présentent un avantage considérable car elles éliminent complètement le risque d'utiliser les données personnelles de quelqu'un, souligne Matschke, c'est un véritable changement de paradigme dans le développement de l'IA, car bien souvent, le principal obstacle réside dans l'accès à des données de qualité et diversifiées, particulièrement dans des secteurs où la réglementation ou les coûts rendent ces données difficiles à obtenir. »

La technologie excelle notamment dans la modélisation de scénarios rares, difficiles à observer dans la réalité. Pour les véhicules autonomes, par exemple, les données synthétiques peuvent générer des milliers de cas extrêmes - conditions météorologiques extrêmes, comportements piétons inhabituels - qu'il serait impossible ou dangereux de collecter en conditions réelles.

D'un point de vue environnemental, les données synthétiques offrent également des avantages notables. « Collecter, stocker et traiter des données réelles peut s'avérer très énergivore, explique Matschke, car, avec les données synthétiques, nous pouvons générer exactement ce dont nous avons besoin, au moment où nous en avons besoin, ce qui réduit significativement les coûts de calcul et de stockage, et donc l'impact environnemental. »

Innovation technique et contrôle qualité

Le processus de génération de données synthétiques exige une calibration rigoureuse pour garantir leur réalisme et leur utilité pratique. « Nous avons besoin de données réelles pour comprendre à quoi doivent ressembler les données synthétiques et quelles sont les échelles de valeurs possibles, explique Matschke. Pour un exemple simple comme l'âge des personnes, nous voulons des valeurs comprises entre 0 et 100-110 ans, et non des âges aberrants de 200 ou 500 ans. »

Comprendre ces bornes et ces utilisations s'avère crucial pour les applications concrètes. « Si nous examinons l'âge des demandeurs de cartes de crédit, ils ont généralement entre 18 et 50 ans, nous ne voulons certainement pas générer des enfants de cinq ans demandant une carte de crédit », ajoute-t-elle avec pragmatisme.

Cette approche dite « humaine dans la boucle » permet aux organisations de garder la main sur le processus de génération, d'influencer ses résultats et d'établir des limites pour éviter les biais. Le résultat obtenu est un jeu de données qui préserve l'intégrité statistique tout en répondant à des besoins spécifiques d'entraînement.

Que se passe-t-il quand l'IA se nourrit de l'IA ?

Malgré leurs avantages indéniables, les données synthétiques soulèvent également de sérieuses inquiétudes, comme celles exprimées par Cory Doctorow. Dans son essai The Coprophagic AI Crisis, Doctorow met en garde contre un futur où les modèles d'IA s'entraînent de plus en plus sur des données générées par d'autres IA, créant un phénomène que les chercheurs appellent « l'effondrement des modèles ».

« Il existe une véritable inquiétude liée à l'effondrement des modèles, reconnaît Matschke, quand nous utilisons un modèle pour générer des données destinées à en entraîner un autre, nous créons un cercle vicieux où les erreurs, les limites et les biais d'un modèle se répètent et s'amplifient progressivement. À terme, nous risquons de perdre la nuance, la précision et la diversité qui font la richesse des données authentiques. »

L'analyse de Doctorow révèle les dangers mathématiques de cet entraînement récursif. Il cite des recherches démontrant que « former une IA sur les productions d'une autre IA la rend exponentiellement moins performante ». La prolifération croissante des contenus générés par l'IA sur internet risque de contaminer les futurs jeux de données avec une information de plus en plus dégradée.

Ce risque de contamination dépasse largement la seule question des données synthétiques et renvoie à un enjeu plus fondamental : comment préserver la qualité des données dans un environnement saturé d'IA ? Comme le formule Doctorow de manière saisissante, « la part de contenu généré par des humains dans un échantillon d'internet devient presque homéopathique ».

Gouvernance et bonnes pratiques

Faire face à ces défis nécessite des cadres de gouvernance solides, conciliant habilement innovation et contrôle qualité. « La gouvernance est absolument essentielle en matière d'IA, insiste Matschke, les organisations doivent documenter avec précision l'usage et la génération de données synthétiques, avec des audits réguliers pour détecter et corriger les biais. Une supervision interne rigoureuse est nécessaire, que ce soit via des comités d'éthique ou des comités indépendants. »

La solution ne réside pas dans l'abandon pur et simple des données synthétiques, mais dans leur utilisation réfléchie et stratégique. « Il convient d'utiliser les données synthétiques pour compléter intelligemment les données réelles, pas pour les remplacer complètement, et de réentraîner régulièrement les modèles avec des données du monde réel », explique-t-elle.

Cette approche hybride permet de tirer parti des atouts des données synthétiques tout en reconnaissant leurs limites intrinsèques. Dans les environnements sensibles comme la santé ou les transports, elles doivent soutenir, et non remplacer, les données réelles. « Pour des outils de diagnostic médical ou des véhicules autonomes, même une légère déviation par rapport à la réalité peut avoir de lourdes conséquences. Ces données doivent vraiment venir en complément, jamais en substitution », prévient-elle avec fermeté.

Une voie durable

À l'avenir, le rôle des données synthétiques dans le développement de l'IA semble à la fois prometteur et complexe. Plutôt que de constituer une solution miracle, elles apparaissent comme un outil puissant au sein d'un écosystème plus large d'IA responsable.

« Je ne pense pas que cela remplacera les données réelles, conclut Matschke avec réalisme, je pense que cela deviendra une composante centrale du processus de développement de l'IA, peut-être dès les premières étapes. Nous nous dirigeons vers un modèle hybride où les données synthétiques comblent efficacement les lacunes des données réelles ou couvrent des scénarios rares, risqués ou contraints par la confidentialité. »

La clé, selon Matschke, réside dans le maintien d'une « diligence raisonnable » dans l'intégration des données : s'assurer que les jeux de données sont représentatifs, exempts de biais, et éthiques. Cela nécessite une collaboration continue entre technologues, éthiciens et experts métiers pour établir des standards robustes évitant les dérives coprophagiques redoutées par Doctorow.

Search

artificial-intelligence

Contenus associés

La technologie au service de la lutte contre l’analphabétisme

Comment Norad et Sopra Steria utilisent l'IA et la technologie cloud pour lutter contre l'analphabétisme infantile. 

TradSNCF : L’IA au service des agents de gare pour l’accueil des voyageurs

Découvrez TradSNCF, l'outil de traduction de la SNCF alimenté par l'IA qui améliore l'expérience voyage de millions de passagers du monde entier.

IA et sécurité intérieure : une innovation majeure en quête de confiance

L’IA est riche de transformations et d’opportunités, notamment pour les forces de sécurité intérieure, et peut s’imposer comme un levier d'efficience dans la réalisation de leurs missions, tout en respectant certaines conditions.