{ Tribune Expert } - Open source et IA : quatre arguments en faveur d'une association vertueuse
Le choix de l'open source est avant tout stimulé par des raisons économiques et par la volonté de casser la dépendance envers les acteurs de l'IA propriétaire, pour gagner en autonomie ; c'est le retour partagé par la plupart des utilisateurs aujourd'hui.

S'il est beaucoup question d'intelligence artificielle (IA) aujourd'hui, le sujet est principalement traité sous le prisme de l'IA générative, généralisé ces deux dernières années par des outils comme ChatGPT ou encore les chatbots. La plupart des préoccupations des décideurs IT, de l'achat de matériel aux investissements dans le cloud, en passant par l'évolution du cours de l'action Nvidia, se concentrent donc sur le pan génératif de l'IA, au détriment de ses autres formes. Et nombreux sont les acteurs de l'IT qui s'engagent dans ce type de projets sans savoir ce qui se cache vraiment derrière. Les éditeurs, initialement habitués aux projets d'IA traditionnelle prédictive, doivent désormais savoir répondre à cette expansion sans précédent de l'IA générative, en travaillant par exemple avec les grands modèles de langage (LLM). Ces derniers, objets de toutes les attentions, sont volontairement maintenus par les acteurs du marché dans une logique propriétaire basée sur l'opacité. Ces « boîtes noires » contribuent à tenir les utilisateurs captifs des solutions en mode cloud / SaaS et sans capacité de maîtriser les coûts. Le choix de la voie open source représente donc une alternative qui s'illustre au niveau de quatre aspects fondamentaux de l'IA.
Mettre un terme à l'opacité économique et la dépendance technologique
Le choix de l'open source est avant tout stimulé par des raisons économiques et par la volonté de casser la dépendance envers les acteurs de l'IA propriétaire, pour gagner en autonomie ; c'est le retour partagé par la plupart des utilisateurs aujourd'hui. Le marché de l'IA n'étant pas encore arrivé à maturité, il est plutôt déconseillé de réduire son champ des possibles en choisissant une solution fermée, en mode 'closed source', qui empêchera toute évolution d'un côté ou de l'autre dans le futur.
L'open source s'adresse donc aux utilisateurs qui souhaitent retrouver la maîtrise de ces services, en les déployant sur leur cloud privé, public ou sur leurs propres sites, tout en évitant les surcoûts. Il existe aujourd'hui un certain nombre de modèles IA open source qui rivalisent en performance comme en fiabilité avec leurs équivalents propriétaires. Il est également plus facile de réduire la taille - et donc la consommation - de ces derniers, par rapport à leurs alternatives cloud beaucoup moins modulaires.
Propriété intellectuelle et transparence : pour des modèles de données plus propres
L'open source permet également d'instaurer une transparence sur les données qui servent à entraîner les modèles d'IA, répondant ainsi à une problématique liée au sujet de la propriété intellectuelle, qui trouve sa limite dans le modèle de type « boîte noire ». En effet, les outils d'IA générative propriétaires existants sont souvent fondés sur l'ensemble des données accessibles sur internet, qu'ils ont utilisés pour entraîner leurs modèles. Cependant, malgré les clauses qui régissent l'utilisation de ces outils, les utilisateurs qui génèrent du contenu à partir de l'IA ne sont pas à l'abri d'être attaqués en justice par les propriétaires des données utilisées.
La deuxième source de préoccupation concerne l'existence de biais dans les sources de données et les méthodes d'entraînement, qui vont inévitablement impacter le résultat. Utiliser des jeux de données en open source apporte deux garanties majeures : la propreté et la fiabilité des données d'une part, et le soutien de la communauté open source en cas de litige d'autre part - lorsque le matériel source est facilement localisable et visible par tous, les litiges de propriété intellectuelle sont moins fréquents et plus rapides à résoudre.
Personnaliser les usages de l'IA
Chaque entreprise a sa propre façon d'utiliser l'IA générative, pour répondre à ses besoins métiers spécifiques. Pour cela, elle doit pouvoir injecter ses propres données dans un modèle générique, pour obtenir des résultats pertinents, en fonction de ses priorités et objectifs. Si l'on prend l'exemple d'une entreprise qui souhaite améliorer l'expérience de ses clients grâce à l'IA, elle doit pouvoir injecter une grande quantité d'informations concernant chaque client au sein du modèle. Le modèle open source permet de procéder ainsi de façon beaucoup facile, efficace et économique que le modèle SaaS ; c'est d'ailleurs une des raisons pour lesquelles certaines entreprises abandonnent la voie du cloud.
En parallèle, un autre enjeu lié aux usages est devenu central : celui de la consommation d'énergie, de ressources et d'infrastructures qu'engendre l'IA. Certains acteurs alertent sur l'importance de réduire au maximum l'« intelligence » des modèles pour limiter leur empreinte, leur taille ou encore leur consommation de GPU. Pour cela, il faut opter pour un modèle plus « spécialisé », qui limite la technologie à la tâche spécifique à laquelle il est destiné, sans avoir besoin d'utiliser un modèle polyvalent et surpuissant dont on exploiterait qu'une infime partie des capacités. Pour cela, il faut pouvoir évaluer la quantité de paramètres de chaque modèle pour déterminer leur pertinence : un modèle d'IA open source procure cette visibilité de manière plus transparente. En fonction des besoins de l'entreprise, il peut être plus approprié d'utiliser un petit modèle de langage (SML), ou des projets open source dans lesquels les LLM peuvent être entraînés sur un domaine de connaissance spécifique, ce qui rend le déploiement plus rapide et plus rentable pour les entreprises. Le plus intéressant dans cette approche est qu'elle démocratise l'utilisation de l'IA ; quelles que soient les compétences techniques, tout le monde devrait pouvoir utiliser ces outils et en tirer le meilleur parti.
Poser les premiers jalons d'une traçabilité de l'IA
Au début de l'explosion de l'IA générative, beaucoup d'utilisateurs envisageaient de créer leur propre modèle de façon autonome, en s'affranchissant des acteurs émergents. Aujourd'hui, ce type de pratique représente un coût tellement important, en termes de matériel et de ressources humaines, qu'il est devenu presque indispensable d'utiliser un modèle de base (foundation model) comme par exemple GPT, Llama, Mistral ou encore Granite.
La seule marge dont disposent les entreprises aujourd'hui est de choisir un modèle open source, au lieu d'un grand modèle en mode SaaS, pour bénéficier de la stabilité et la solidité de l'écosystème open source, ainsi que de l'attirail d'outils qu'apportent les membres de la communauté.
Cette logique devrait permettre de réduire la grande diversité actuelle des façons d'utiliser les modèles d'IA et de standardiser progressivement les pratiques, en identifiant celles qui fonctionnent le mieux et en utilisant les mêmes outils sous-jacents sur l'ensemble des modèles. Par extension, cela permettra aussi d'identifier et de cartographier les différents LLM selon leurs caractéristiques, leurs failles, leurs forces, leur niveau de sécurité, car le niveau de traçabilité est encore trop faible aujourd'hui.
A terme, ce type de dispositif constituera une véritable aide à la décision pour les développeurs et l'ensemble des utilisateurs, qui naviguent encore trop à vue dans le paysage en constante évolution de l'IA. L'open source est, en effet, la voie qui s'adapte le plus à ce rythme effréné de développement, mais également l'alternative la plus souhaitable au modèle opaque de « boîte noire » pratiqué par les grands acteurs du domaine. Plus les utilisateurs seront nombreux à se pencher sur le sujet de l'IA et à se poser des questions liées aux usages et à l'éthique, plus le système dans sa globalité s'améliorera et réussira à éviter les dérives.
* David Szegedi est Field CTO France, Red Hat
Lire aussi : Orange Business renforce son offre d'IA générative
Sur le même thème
Voir tous les articles Data & IA