Stack Overflow veut contraindre les entreprises d’IA à payer

Stack Overflow, source de référence pour développeurs, exigera une compensation des entreprises utilisant ses données pour entraîner leur IA.

Comme Reddit etTwitter, Stack Overflow, ressource de référence et plateforme d’entraide des programmeurs, veut contraindre les entreprises d’intelligence artificielle (IA) à payer pour accéder aux données qu’elles utilisent pour entraîner leur technologie.

Comme a relevé Wired, les sociétés actives dans l’IA, dont OpenAI et DeepMind (Google), collectent et traitent des données massives en ligne pour entraîner leur technologie et livrer des réponses aux requêtes d’humains, y compris concernant le code et la programmation informatique. Jusqu’à présent, elles ont pu le faire sans créditer, ni rétribuer les produteurs et les éditeurs de ces données.

Afin de mieux appréhender cette boîte noire, une autre source, le Washington Post, dit avoir étudié le jeu de données C4 (Colossal Clean Crawled Corpus) qu’utilise Google. Cet ensemble agrège le contenu de 15 millions de sites web, Stack Overflow inclus. Autant de données utilisées pour former de grands modèles de langage (LLM) de langue anglaise, tels que T5 de Google et LLaMA de Facebook. Il convient de noter qu’OpenAI ne divulgue pas les jeux de données utilisés pour entraîner son chatbot ChatGPT.

Le modèle de Stack Overflow impacté

Le CEO de Stack Overflow, Prashanth Chandrasekar, a indiqué prévoir de facturer dès cet été aux développeurs en IA l’accès aux données que traite la plateforme.

« Les plateformes communautaires qui alimentent les LLM [grands modèles de langage] devraient absolument être rémunérées pour leur contribution afin que des entreprises comme la nôtre puissent réinvestir dans leurs communautés et continuer à les faire prospérer », a déclaré le dirigeant, cité par Wired.

« Nous soutenons vivement l’approche de Reddit » sur ce sujet, a-t-il ajouté.

Il en va de la pérennité du modèle de ces plateformes. Celles-ci tirent profit de publicités qui s’affichent sur leur site en fonction des données qui y sont partagées et, dans une moindre mesure, de services payants.

Or, l’ascension de ChatGPT depuis son lancement public, et sa popularité grandissante auprès d’un public large, développeurs inclus, impacte déjà Stack Overflow.

En mars 2023, d’après une analyse de SimilarWeb rapportée par VentureBeat, un recul de près de 14% en glissement annuel du trafic de Stack Overflow a été constaté.

(crédit photo © Shutterstock)