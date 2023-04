Comme Reddit etTwitter, Stack Overflow, ressource de référence et plateforme d’entraide des programmeurs, veut contraindre les entreprises d’intelligence artificielle (IA) à payer pour accéder aux données qu’elles utilisent pour entraîner leur technologie.

Comme a relevé Wired, les sociétés actives dans l’IA, dont OpenAI et DeepMind (Google), collectent et traitent des données massives en ligne pour entraîner leur technologie et livrer des réponses, y compris concernant le code informatique et la programmation, aux requêtes exprimées par des humains. Jusqu’à présent, elles ont pu le faire sans créditer, ni rétribuer les produteurs et les éditeurs de ces données.

Afin de mieux appréhender cette boîte noire, le Washington Post a étudié le jeu de données C4 (Colossal Clean Crawled Corpus) qu’utilise Google. Cet ensemble agrège le contenu de 15 millions de sites web, autant de données utilisés pour former de grands modèles de langage (LLM) de langue anglaise, tels que T5 de Google et LLaMA de Facebook. Il convient de noter qu’OpenAI ne divulgue pas les jeux de données utilisés pour entraîner son chatbot ChatGPT.

Le modèle de impacté Stack Overflow

Le CEO de Stack Overflow, Prashanth Chandrasekar, a indiqué prévoir de facturer dès cet été aux développeurs en IA l’accès aux données que traite la plateforme, a relevé Wired.

« Les plateformes communautaires qui alimentent les LLM [grands modèles de langage] devraient absolument être rémunérées pour leur contribution afin que des entreprises comme la nôtre puissent réinvestir dans leurs communautés et continuer à les faire prospérer », a déclaré le dirigeant, cité par Wired. « Nous soutenons vivement l’approche de Reddit » sur ce sujet, a-t-il ajouté.

Il en va de la pérennité du modèle de ces plateformes. Celles-ci tirent profit de publicités qui s’affichent sur leur site en fonction des données qui y sont partagées sur leur site et, dans une moindre mesure, de services payants.

Or, l’ascension de ChatGPT depuis son lancement public en novembre dernier, et sa popularité grandissante auprès d’un public large, développeurs inclus, impacte déjà Stack Overflow.

En mars 2023, d’après une analyse de SimilarWeb rapportée par VentureBeat, un recul de près de 14% en glissement annuel du trafic de Stack Overflow a été constaté.

