{ Tribune Expert } - La voie vers une véritable IA open source
Il semble nécessaire de développer un cadre de gouvernance de l'IA open source autour de fondations et de consortiums qui définissent de bonnes pratiques et des licences standards.

En raison du développement rapide de l'intelligence artificielle (IA) et, en particulier, de l'IA générative à partir de grands modèles de langage (LLM), il est tout naturel que la question de l'ouverture de cette technologie selon un modèle open source se pose. Certains acteurs publient d'ores et déjà leurs modèles sous licence open source et souhaitent tirer parti de l'ouverture pour accélérer l'innovation.
Néanmoins, peut-on véritablement parler de modèles d'IA open source ?
À la différence des logiciels qui, dans le cas de l'open source, donnent accès à leur code source à l'ensemble de la communauté, les modèles d'IA sont également régis par des poids ou "model weights", qui déterminent la manière dont ils fonctionnent. Par ailleurs, l'entraînement de ces modèles s'appuie sur de vastes quantités de données, dont certaines peuvent être sensibles ou soumises à des obligations réglementaires.
Par conséquent, est-il possible véritablement d'y appliquer les mêmes principes d'accessibilité qu'aux logiciels open source ?
Les conditions a minima de l'IA open source
L'open source fait référence à un ensemble de principes de libre accès au code source de logiciels partagés par une communauté. Chaque membre est libre d'utiliser, d'étudier, de modifier et de redistribuer le code source. Cela a favorisé l'avènement de projets majeurs et une innovation collaborative incomparable menant au développement de systèmes d'exploitation, de serveurs web, ou encore de langages de programmation qui tirent continuellement parti des contributions d'utilisateurs du monde entier.
Il est tentant de transposer ces principes aux modèles d'intelligence artificielle. À la différence d'un logiciel, leur caractéristique majeure réside dans l'existence des poids.
Ces derniers, dérivent de l'entraînement massif des modèles à partir de données potentiellement disparates, et permettent de « pondérer » le comportement du modèle. Leur modification, ainsi que leur affinement au moyen d'un travail collaboratif et de contributions, sont essentiels pour permettre d'alimenter l'innovation et de développer les modèles d'IA.
Toutefois, contrairement à un logiciel dont le code source est généralement l'infrastructure fondatrice, les grands modèles de langage, par exemple, reposent sur des quantités considérables de données d'entraînement, qu'il est souvent impossible d'héberger ou d'analyser dans leur intégralité. En outre, les contraintes de confidentialité dont elles font l'objet empêchent de les partager de manière transparente sans outrepasser les garde-fous fixés par la réglementation.
Cela débouche sur un paradoxe, dans lequel les communautés open source n'auraient pas accès à l'intégralité des données ni aux caractéristiques qui ont mené à la création des poids, mais uniquement aux poids eux-mêmes. Cela contredit en quelque sorte les principes de transparence et d'accessibilité prônés par l'open source.
Vers la mise en place concrète de l'IA open source
Les nouveaux modèles sous licence open source, à l'image des modèles Granite d'IBM disponibles sous licence Opensource Apache V2, représentent un bon moyen de surmonter les contraintes techniques et réglementaires, tout en répondant aux besoins des entreprises en constante évolution. Ils consistent à rendre publics certains éléments essentiels : les poids, qui déterminent son fonctionnement, le code, qu'il s'agisse des inférences de modèles ou des scripts d'exécution, qui permet de le déployer et de l'enrichir, ainsi que des informations complémentaires sur les modes d'entraînement et certaines données d'entraînement.
Lire aussi : OpenAI va publier un modèle Open-Weight
Certains acteurs mentionnent parfois des licences « hybrides », grâce auxquelles le modèle peut être utilisé et modifié par tous, mais dont les données restent protégées. Pour les puristes, il ne s'agirait pas véritablement d'open source, en raison de l'opacité de l'entraînement. Une approche plus pragmatique consisterait à dire que l'ouverture des poids et du logiciel sous-jacent suffit à alimenter la collaboration et l'innovation, notamment dans le domaine de l'affinement des modèles par la communauté, qui peut les adapter en fonction de différents scénarios.
Afin d'aller plus loin, il semble donc nécessaire de développer un cadre de gouvernance de l'IA open source autour de fondations et de consortiums qui définissent de bonnes pratiques et des licences standards. La Convention-cadre sur l'intelligence artificielle, organisée par le Conseil de l'Europe, en est l'un des principaux exemples. Elle propose notamment des outils réglementaires, des chartes éthiques, des documents d'audit ou des indicateurs de fiabilité pour atténuer les risques de biais et de discrimination au sein des modèles et contribuer à garantir la réussite des projets en matière d'IA au-delà de leur implémentation. En plus d'encourager les entreprises à penser l'IA sur le long terme et pas simplement comme une technologie en vogue, ces contributions inestimables permettent de mettre en place les garde-fous nécessaires afin de créer une IA plus sûre et plus fiable.
Par ailleurs, des techniques comme la confidentialité différentielle permettent d'entraîner et d'améliorer un modèle sans pour autant divulguer le détail des données brutes. Il est alors envisageable de collaborer sur un même modèle, tout en gardant des données protégées. C'est là que le cloud hybride prend toute son importance, car il fournit l'infrastructure nécessaire afin d'héberger et d'exécuter ces modèles de manière flexible. En combinant les environnements et ressources sur site et dans les différents clouds, chacun peut garder le contrôle sur ses données sensibles tout en mettant en commun la puissance de calcul et le savoir-faire qui mènent à l'amélioration continue des modèles.
À l'heure actuelle, l'IA « open source » se heurte à de nombreuses contraintes techniques comme réglementaires. Elle se définit a minima par le partage des poids et du logiciel sous licence libre, ce qui permet déjà d'offrir une réelle marge de manoeuvre aux utilisateurs et aux chercheurs pour analyser, affiner et réutiliser les modèles.
Néanmoins, ce modèle d'ouverture partielle paraît insuffisant au regard d'exigences de transparence de l'open source. Aussi, de nouveaux cadres de gouvernance émergent afin de renforcer la transparence et la collaboration, comme la standardisation des licences ou la mise en place de labels de confiance. Le cloud hybride, grâce à sa flexibilité, s'impose également comme l'un des piliers qui permettront de mieux distribuer l'IA et de la rendre plus responsable, en conciliant souveraineté des données et innovation rapide.
Les entreprises soucieuses de rester le plus ouvertes possible pour réduire leur dépendance technologique à un fournisseur de modèle, et qui souhaiteraient également renforcer leur réelle autonomie stratégique, doivent développer une vigilance particulière sur ces points.
* Rémy Mandon est Country Manager France de Red Hat
Sur le même thème
Voir tous les articles Data & IA