Au sein de la communauté OpenAI, le sentiment est-il plutôt positif ou négatif ? Ça dépend comment on le mesure…

Une start-up américaine a entrepris une évaluation. Elle a collecté la quasi-totalité des posts publiés sur le forum officiel entre mars 2021 (date de son ouverture) et le 28 février 2024.

L’évaluation du sentiment s’est faite avec le modèle Twitter-roBERTa-base. Il en a résulté des étiquettes post_sentiment (avec la valeur « négatif », « neutre » ou « positif »), chacune assortie d’un score de confiance.

Si on s’en tient aux étiquettes, le volume et la proportion de posts « positifs » a tendu à progresser ces derniers mois. Si, en revanche, on fait la moyenne des scores, celle-ci a eu tendance à baisser.

Au global, la plupart des posts sont neutres (60 %). Le plus fort volume de posts négatifs est dans la catégorie API/Bugs (37,6 %). Les plus positifs, dans les catégories Community et GPT builders/plugin-store.

Si on s’intéresse au score moyen (arrondi au dixième) :

Négatif Neutre Positif API/Bugs 37,6 % 53,4 % 9 % API/Deprecation 16,1 % 66,3 % 17,6 % API/Feed 26,2 % 55,4 % 18,5 % Community 13,8 % 50,2 % 36 % Documentation 13,7 % 56 % 30,3 % GPT builders/Chat plugins 23,3 % 53,9 % 22,9 % GPT builders/Plugin store 18,7 % 50,7 % 30,6 % Prompting 13,3 % 63,4 % 23,3 %

L’API OpenAI, génératrice de sentiment négatif

Une fois les posts vectorisés avec Nomic Embed-Text 1.5, des tendances se dégagent par topic.

Le topic IA est, depuis fin 2022, celui qui présente le sentiment le plus positif (score moyen le plus élevé). C’est le contraire pour le topic API, neutre les premiers mois, puis tombé dans le négatif, avec un score stabilisé depuis environ un an. La tokenisation penche elle aussi nettement dans le négatif.

Les posts « négatifs » les plus vus concernent la maîtrise de la température et du paramètre Top_p, les clés API sur les comptes gratuits et les comptes signalés pour abus potentiel.

Par topic, les plus gros volumes de posts « négatifs » concernent les packages Python, la performance, le format JSON et les erreurs « requête invalide ».

La recherche vectorielle, au contraire, suscite peu de posts « négatifs », comme la vectorisation elle-même.