IA et programmation : PolyCoder surpasserait Codex en C

PolyCoder se présente en alternative open source à la complétion de code portée par une intelligence artificielle de DeepMind ou OpenAI.

Des chercheurs de l’université américaine Carnegie Mellon ont lancé PolyCoder, une intelligence artificielle qui peut générer du code dans différents langages de programmation.

Le programme s’inscrit dans la lignée de GitHub Copilot et Alphacode de DeepMind (filiale d’Alphabet, maison mère de Google). Des divergences affleurent. Polycoder surpasserait le modèle Codex dans l’écriture de code en C, selon ses promoteurs.

Les chercheurs de Carnegie Mellon expliquent dans un document technique :

« Les grands modèles de langage (LM) de code se sont récemment révélés extrêmement prometteurs pour compléter le code et le synthétiser à partir de descriptions en langage naturel. Cependant, les LM de code de pointe actuels (par exemple, Codex) ne sont pas ouverts publiquement, laissant [sans réponse] de nombreuses questions concernant leur modèle et leurs choix de conception de données. Nous souhaitons remplir certains de ces blancs grâce à une évaluation systématique des plus grands modèles existants : Codex, GPT-J, GPT-Neo, GPT-NeoX-20B et CodeParrot, dans divers langages de programmation. »

12 langages de programmation

Polycoder a été entraîné sur une base de 249 Go de code, sur une seule machine, dans 12 langages de programmation : C, C#, C++, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala et TypeScript.

Les modèles associés sont open source et accessibles sur GitHub.

« PolyCoder surpasse Codex et tous les autres modèles dans le langage C. En comparant uniquement les modèles open source, PolyCoder surpasse le modèle GPT-Neo 2.7B de taille similaire en C, JavaScript, Rust, Scala et TypeScript », déclarent les chercheurs.

De quoi démocratiser la génération de code portée par une IA ?

(crédit photovia pexels)