La génération augmentée par la récupération (RAG) permet d'obtenir des réponses fondées sur des sources fiables en quelques secondes. Cette promesse est plus proche qu'on ne le pense, selon Patrick Meyer, architecte principal en intelligence artificielle et directeur technique chez Sopra Steria UK, et Clément Benesse, chercheur senior en IA chez opsci.ai.
Imaginez un médecin confronté à un diagnostic complexe et urgent. Il a accès à des milliers d'études scientifiques, des rapports médicaux, des dossiers de patients et des notes personnelles. Pourtant, trier cette masse d'informations dans les temps impartis relève de l'impossible.
Maintenant, imaginez un assistant capable de filtrer instantanément les faits les plus pertinents pour fournir une réponse précise, sourcée et concise en quelques secondes : ce n'est pas de la science-fiction, c'est la promesse de la génération augmentée par la récupération (RAG).
De l'approximation aux réponses fondées : comment la RAG améliore les LLM
Les grands modèles de langage (LLM) sont souvent critiqués pour leur manque de cohérence. Parfois, ils fournissent des réponses d'une justesse impressionnante alors que d'autres fois, ils inventent purement et simplement du contenu. Vous avez peut-être déjà eu l'impression que ChatGPT répondait sans vraiment comprendre le sujet. Cela s'explique par le fait que les LLM ne comprennent pas directement le sens : ils identifient des relations statistiques entre les mots et tentent de deviner la séquence "correcte" avec plus ou moins de succès.
La RAG corrige cette défaillance en ancrant chaque réponse dans des sources externes factuelles. Ce LLM génère toujours la réponse, mais à partir d'informations de référence vérifiées. Patrick Meyer nous explique que « la RAG combine deux éléments essentiels : la recherche et la génération de réponse. Cela permet d'intégrer la connaissance interne d'une entreprise à la compréhension générale du modèle pour répondre aux questions de manière pertinente. »
Concrètement, RAG récupère des informations dans les bases de données de l'entreprise, puis utilise un modèle de langage pour formuler la réponse finale. « Les modèles RAG fonctionnent comme des moteurs de recherche avancés », résume Meyer.
« Quand vous consultez un site web, vous pouvez chercher une information en explorant les pages ou en posant une question directe. Avec RAG, et notamment son "G" pour génération, plus besoin de fouiller, vous obtenez instantanément un résumé intelligent ou même une réponse directe, ce qui fait gagner un temps précieux », ajoute-t-il.
Précision, polyvalence et fiabilité : les atouts majeurs de RAG
RAG est à la fois simple et puissant, générant des réponses concises, contextualisées et traçables qui facilitent la prise de décision rapide. « Un de ses avantages majeurs, c'est que RAG ne nécessite pas une puissance de calcul exceptionnelle, contrairement à l'affinage de modèle », note Clément Benesse, tout en conservant toutes les capacités avancées des LLM : l'ingénierie de prompt, le formatage des réponses, la gestion du style, ainsi qu’une connaissance modulaire et actualisable. »
La RAG se révèle aussi extrêmement polyvalente. Elle peut être déployée dans tous les secteurs d'activité : service client, finance, ressources humaines, etc. Sopra Steria accompagne déjà une cinquantaine de clients à travers le monde dans des expérimentations concrètes, et utilise elle-même la RAG en interne pour traiter efficacement des requêtes à partir de ses propres documents de référence.
Sa fiabilité découle de sa capacité à relier les réponses directement à leurs sources d'origine. « Contrairement à un modèle de langage entraîné sur l'ensemble de la documentation, qui ne peut pas indiquer d'où provient l'information, la RAG inclut un mécanisme de récupération qui préserve la traçabilité de la source. On sait exactement d'où vient chaque élément d'information », explique Meyer.
Et en s'appuyant systématiquement sur des faits vérifiés, la RAG réduit considérablement les hallucinations. « La RAG peut éviter les hallucinations dues à des informations obsolètes ou ambiguës, ajoute-t-il. Si je dis "arbre", la plupart des gens pensent à un tronc avec des feuilles, un mathématicien visualise un arbre de décision, un mécanicien évoque un arbre à cames. Cette ambiguïté sémantique peut provoquer des erreurs graves si le système fait une mauvaise interprétation contextuelle. »
Travailler dans les limites : le rôle de l'utilisateur et les contraintes de la RAG
Le succès de la RAG dépend étroitement de la formulation des requêtes et de la structuration préalable des données. Parfois, il ne peut tout simplement pas répondre si la question sort de son périmètre de connaissances.
« La principale limite vient de l'utilisateur, note Meyer. Avec ChatGPT, on peut tout demander, car le modèle contient déjà l'information dans ses paramètres. La RAG, elle, doit aller chercher les données pertinentes, donc il faut formuler la question de manière adaptée à ses capacités. Il ne peut pas inventer d'informations, et donc ne peut pas répondre à absolument tout. »
La RAG limite également de manière volontaire l'accès du modèle aux informations disponibles, en guidant précisément ce qu'il peut utiliser comme sources. « Si la RAG est mal configurée, elle peut fournir une information techniquement correcte mais pas vraiment utile dans le contexte, explique Benesse. C'est comme remettre à un analyste une mauvaise note de service, cela peut fausser les résultats ou considérablement ralentir le travail. Heureusement, la chaîne de traitement est assez bien définie, et les problèmes proviennent le plus souvent de la mauvaise qualité des documents sources, pas du système lui-même. »
Intégrer la complexité : de la multimodalité à la souveraineté linguistique
Intégrer différents types de documents (texte, image, vidéo) dans un même modèle de langage et les faire coexister de façon efficace demeure un défi technique majeur. « Aujourd'hui, l'information principale est dispersée entre le texte, les images et les vidéos, constate Benesse. Le véritable défi consiste à rassembler ces éléments dans un espace de représentation unifié, afin que le système puisse établir des liens pertinents entre un extrait de texte et un élément visuel. Des approches comme les embeddings composites ou les graphes de connaissance offrent des pistes très prometteuses pour relever ce défi. »
Il faut aussi veiller à représenter équitablement la diversité des langues et des cultures, notamment face aux biais linguistiques structurels. « Les modèles sont entraînés avec environ 90 % de données en anglais, issues majoritairement d'Internet, ce qui induit des biais culturels significatifs, alerte Meyer. Les petits pays sont à peine représentés dans ces corpus, ce qui pose de véritables problèmes de souveraineté numérique et culturelle. »
Un avenir collaboratif : les systèmes SMA et la prochaine génération d'IA
En se tournant vers l'avenir, nos deux experts imaginent un monde où plusieurs modèles spécialisés collaboreront de manière fluide, pour offrir la rapidité, la précision et l'efficacité des meilleurs LLM actuels, mais de façon plus sobre écologiquement, et explicable.
« L'avenir réside dans des systèmes qui rivalisent en rapidité et en précision avec les grands LLM comme ChatGPT, estime Meyer, je pense qu'on assistera à cela avec les systèmes SMA (systèmes multi-agents). L'idée fondamentale, c'est que plusieurs modèles coopèrent harmonieusement : un agent analyse la requête et la décompose, un autre répartit les tâches vers des agents spécialisés, etc. C’est, en somme, une série de petits modèles experts qui collaborent efficacement. »
Benesse acquiesce : « Jusqu'ici, la tendance dominante était aux modèles toujours plus grands, avec des coûts de calcul énormes et une empreinte environnementale préoccupante. Mais il n'est pas nécessaire de s'appuyer sur un seul modèle généraliste mastodonte pour tout faire. Les systèmes SMA reproduisent la structure organisationnelle d'une entreprise, avec des équipes spécialisées en stratégie, ingénierie, industrialisation, communication, etc., pour optimiser les ressources utilisées. C'est l'une des meilleures voies actuelles pour plus de sobriété énergétique et d'explicabilité des décisions. »