Albert: «l'IA souveraine à la française»

Le 23 avril dernier, le gouvernement français a annoncé par l’intermédiaire de son premier ministre Gabriel Attal, la publication d’Albert: une « IA 100% française » développée par la Direction interministérielle du numérique (Dinum).

Albert qui sera graduellement déployé dans les services publics, a pour objectif de simplifier et « débureaucratiser » l’administration. Les essais à petite échelle semblent s’être montrés concluants. Lors d’un événement organisé par acteurspublics le 13 mars dernier, le chef de la plate-forme numérique du programme “Services publics +”, Laurent Blanc, avait témoigné : « depuis octobre [2023], l’expérimentation par près de 1 700 agents de différents services, a notamment permis de réduire les délais de réponse aux témoignages laissés par les usagers sur la plate-forme, délais qui sont passés de 19 jours en moyenne à seulement 3 jours. »

S’il faut rester prudent quant aux effets d’annonce, tant du point de vue de la "souveraineté" du modèle que de sa performance réelle à plus grande échelle, les objectifs explicites d’Albert et les moyens mis en œuvre méritent d’être salués.

-  Confidentialité des données : les modèles sont déployés sur des serveurs français, ce qui garantit le respect de la réglementation en matière de données.

-  Assistance plutôt que remplacement : les agents des services publics, après une formation, interrogent le modèle et fournissent des réponses aux usagers. Ceci permet d'atténuer es problèmes habituellement associés aux grands modèles de langue tels que les hallucinations et les oublis – surtout quand, comme Albert, les modèles ne sont pas si grands.

-  Corollaire du point précédent : la citation des sources est cruciale lorsque les informations sont directement tirées de documents provenant d’une base de données. Les modèles eux-mêmes n’assimilent pas nécessairement toute une base données mais peuvent être rattachés à un moteur de recherche qui leur fournit le contexte nécessaire à leurs réponses. Citer les documents permet aux agents de vérifier directement dans les documents concernés.

-   Transparence : s’il serait exagéré de parler de modèle ouvert (voir ci-dessous), la publication des paramètres doit favoriser l’adoption - nous ne manquerons pas de l’essayer, voir de le reentrainer – et garantit que des tiers puissent identifier des lacunes ou des biais.

 

D’un point de vue plus technique, Albert n’est pas un modèle à proprement parler. Albert est plutôt un écosystème qui peut fonctionner sur la base de plusieurs modèles :

-    Albertlight est dérivé de Llama2, modèle de fondation entraîné par Meta ;

-   Guillaume Tell est dérivé de OpenHermes 2.5 – Mistral 7B, lui-même dérivé de Mistral 7B (modèle de fondation entraîné par Mistral). OpenHermes 2.5 – Mistral 7B s’est imposé comme l’un des meilleurs modèles pour sa catégorie de taille. L’étape de « finetuning » convertissant Mistral 7B en OpenHermes 2.5 – Mistral 7B a été effectuée par un collectif américain, Nous Research. Le jeu de données nécessaire à cette étape de « finetuning », a été construit par un individu, lui-aussi américain, avant même la création de Nous Research. Le jeu de données est partiellement synthétique, ce qui signifie qu’il a été produit en utilisant d’autres modèles de langue (GPT4 d’OpenAi en particulier). Le jeu de données et les modèles de Nous Research sont accessibles à tous et Nous Research n’en tire aucun revenu [1].

Il ne faut pas minimiser le travail colossal effectué en aval pour rendre l’écosystème Albert compatible avec les objectifs énoncés. La langue française est un premier obstacle majeur puisque les modèles de fondation sont entraînés sur des jeux de données en grande majorité en anglais. Le transfert d’ « intelligence » entre les langues est un phénomène documenté mais cela n’est pas suffisant pour déployer en production des modèles sans les réentraîner sur du français. L’autre difficulté est de permettre à ces modèles dérivés de comprendre les documents de l’administration, leur structure et leur contenu, afin de fournir des réponses dans un format facilement interprétable par l’utilisateur, c’est-à-dire l’agent des services publics.

L’Etat a réussi à réunir des talents français d’horizons divers pour développer Albert dans un temps relativement court (Llama2 et Mistral 7B ont été publiés il y a moins de 9 mois) et à moindre coût. Ceci est une première preuve qu'intelligence artificielle et « débureaucratisation » peuvent aller de pair. Mais il faut aussi comprendre que, lorsque le premier ministre évoque «l'IA souveraine à la française», ni le modèle de fondation ni les données nécessaires au « finetuning » ne sont, pour le moment, d’origine française. Cette première tentative partielle, si elle est concluante, encouragera certainement des initiatives pour rattacher les wagons manquants [2].

 

L’IA est une réalité concrète qui impacte déjà les citoyens. Les enjeux de la souveraineté de l’intelligence artificielle ne se limitent pas à la productivité dans l’administration. Les données traitées et les conséquences du traitement induisent des enjeux majeurs de souveraineté, pour l’Etat comme pour les individus. Le lien entre souveraineté, droit et intelligence artificielle est évident. Retrouvez ici notre collection : Intelligence Artificielle, Droit et Souveraineté.

L’Institut PRESAJE – Michel ROUGER, co-organisateur, avec la Cour d’appel de Paris, l’Ecole Nationale de la Magistrature et l’Ecole de Formation du Barreau, du colloque du 1er décembre 2023 « Intelligence artificielle, droit et souveraineté » publie les actes de cet événement. Cette diffusion préfigure également la parution, le 6 juin 2024, de l’ouvrage dirigé par Brunessen Bertrand et Guillaume Le Floch « La souveraineté numérique » dans la collection Macro droit – Micro droit dont est partenaire PRESAJE.

 

 

 

[1] Nous Research s’est récemment organisé sous forme de société aux Etats-Unis et a levé des fonds pour financer ses opérations.

[2] voir les jeux de données de Pleias, qui a produit Guillaume Tell

Institut PRESAJE - 30 rue Claude Lorrain 75016 Paris
E-mail : contact@institut-presaje.com
Association loi de 1901