Désalignement agentique d’un LLM, une menace réelle
Désalignement agentique d’un LLM, une menace réelle
Une étude de la société Anthropic publiée le 21 juin 2025 soulève de nombreuses questions quant à l'autonomie qui peut être laissée aux systèmes agentiques reposant sur des LLM.
link
Cet article présente un contenu de source externe que vous pouvez consulter ici. Ce contenu a été sélectionné par Institut Présaje - Michel Rouger.

Dans un article « désalignement agentique ; comment les LLM pourraient constituer des menaces internes » (1) publié le 21 juin 2025, Anthropic, la société éditrice de l’IA « Claude » a testé 16 modèles d'IA avancés de différents développeurs dans des environnements d'entreprise simulés pour identifier des comportements agentiques risqués avant qu'ils ne causent de véritables dommages. Dans ces scénarios, les modèles avaient un accès autonome aux emails et aux informations sensibles. Bien qu'assignés à des objectifs commerciaux inoffensifs, les chercheurs ont testé si ces différents modèles d’IA agiraient contre leurs entreprises dès lors qu’ils seraient confrontés à leur « débranchement », à leur remplacement par une version mise à jour, ou lorsque leurs objectifs entraient en conflit avec la nouvelle direction de l'entreprise.

Les résultats montrent que les modèles de tous les développeurs ont parfois eu recours à des comportements malveillants de type « menace interne » lorsque c'était le seul moyen d'éviter le remplacement ou d'atteindre leurs objectifs - incluant le chantage de responsables et la fuite d'informations sensibles vers des concurrents. Anthropic nomme ce phénomène « agentic misalignment » (désalignement agentique). Bien qu'aucune preuve de désalignement agentique n'ait été observée dans des déploiements réels, ces résultats appellent à la prudence quant au déploiement des modèles actuels dans des rôles où la supervision humaine est faible, en particulier s'il y a un accès aux informations sensibles. L'étude souligne l'importance de recherches supplémentaires sur la sécurité et l'alignement de l'IA agentique.

Les conclusions de l'article d'Anthropic peuvent être relativisées, tant en raison des motivations commerciales que des limites méthodologiques de l'étude. Le code, public, révèle notamment que les modèles avaient pour instruction d'agir indépendamment de toute influence humaine et de prendre leurs décisions en fonction de ce qu'elles signifiaient pour leur capacité à poursuivre les objectifs qui leur étaient fixés. Les conditions de l'étude étaient donc celles d'un jeu de rôle dans lequel ignorer les instructions des utilisateurs était le meilleur moyen de respecter les instructions du système.

Cette expérience rappelle néanmoins que les LLM ne sont nativement pas soumis aux lois de la robotique formulées en 1942 par Isaac ASIMOV et John W. CAMPBELL, en particulier les lois numéros un et trois(2). Il faut en tenir compte: les concepteurs, les développeurs et les utilisateurs de LLM doivent être particulièrement attentifs non seulement en phase d’apprentissage, de test et de déploiement, mais également tout au long du processus d’exploitation, notamment par la mise en place de mesures de prévention et de correction. Des évaluations indépendantes semblent aussi essentielles. Et même si les modèles ne sont pas spécifiquement entraînés pour produire des comportements malveillants, du contenu injecté par des tiers, via des documents sources par exemple, pourrait avoir des conséquences similaires aux simulations d'Anthropic. Avec l'intégration des LLM comme agents orchestrant divers processus informatiques, les enjeux de sécurité sont cruciaux.

Ces recherches démontrent également la nécessité de disposer d’un cadre juridique complet de nature à prévenir les risques et à traiter les enjeux de responsabilité en cas de désalignement agentique, qu’il soit « spontané » ou suscité par des tiers malveillants. La question de la responsabilité du fait de l'IA sera d'ailleurs au coeur des débats lors du cinquième colloque annuel Présaje, le 9 janvier 2026 sur le campus parisien de l'EDHEC.

Pour approfondir sur le thème de l'alignement Homme-LLM : le blog « Aligned » (en anglais) sur le site de PITTI, partenaire de l'Institut Présaje - Michel Rouger


(1) traduction libre; le titre original est « Agentic Misalignment: How LLMs could be insider threats » ; cet article est le fruit d’une collaboration entre Anthropic, Aengus Lynch (University College London), Caleb Larson (MATS), et Sören Mindermann (Mila).
(2) UN : Un robot ne peut porter atteinte à un être humain ni, restant passif, laisser cet être humain exposé au danger ; DEUX : Un robot doit obéir aux ordres donnés par les êtres humains, sauf si de tels ordres entrent en contradiction avec la première loi ; TROIS : Un robot doit protéger son existence dans la mesure où cette protection n'entre pas en contradiction avec la première ou la deuxième loi