Kyutai : qui sont les 6 membres de l’équipe scientifique

Et vous, quel est l’article scientifique ou le projet open source le plus intéressant que vous avez vu passer cette année dans le domaine du machine learning ? Kyutai pose la question sur son formulaire de recrutement.

Trois donateurs privés financent ce laboratoire à but non lucratif dédié à la recherche ouverte en IA. Parmi eux, Schmidt Futures, le fondation de l’ancien P-DG de Google Eric Schmidt et de son épouse. Mais aussi Iliad et CMA CGM… dont les patrons respectifs – Xavier Niel et Rodolphe Saadé – ont récemment livré un bras de fer pour la reprise du groupe La Provence.

Doté à « près de 300 millions d’euros », Kyutai compte Yann Le Cun (directeur de l’IA chez Meta) dans son conseil scientifique. À ses côtés, Yejin Choi (directrice de recherche à l’Allen Institute for AI) et Bernhard Schölkopf (directeur du département d’inférence empirique à l’Institut Max-Planck pour les systèmes intelligents).

Les six chercheurs qui composent l’équipe de départ de Kyutai ont… un certain cachet. Trois d’entre eux sont des anciens de FAIR (Facebook Artificial Intelligence Research) ; deux, de DeepMind.

Patrick Pérez, directeur de Kyutai

Patrick Pérez, n’est passé ni par la case FAIR, ni pas la case DeepMind. L’intéressé a travaillé chez Microsoft Research, entre 2000 et 2004. Il était auparavant chez Inria (1993-2000), où il est revenu par après (2004-2009). La suite de sa carrière s’est déroulée chez Technicolor (2009-2018), puis chez Valeo en tant que directeur scientifique du laboratoire valeo.ai.

Diplômé de Centrale Paris en mathématiques appliquées, Patrick Pérez a soutenu sa thèse en 1993 à l’université de Rennes. Sujet : « Champs markoviens et analyse multirésolution de l’image : application à l’analyse du mouvement ». Il y est question de l’association des stratégies multigrilles à la modélisation statistique markovienne.

Parmi les articles dont Patrick Pérez est (co)auteur, les plus populaires sur Google Scholar (en nombre de citations) traitent de l’édition d’images et de leur recherche à grande échelle.

Le voilà donc à la tête de Kyutai.

Hervé Jégou, expert en compression et vision informatique

Diplômé de l’ENS Cachan, Hervé Jégou a soutenu sa thèse en 2005 à l’université de Rennes. Sujet : « Codes robustes et codes joints source-canal pour transmission multimédia sur canaux mobiles ».

Après une dizaine d’années au sein d’Inria (2006-2015), Hervé Jégou fit partie de l’équipe fondatrice du laboratoire FAIR de Paris. Il en fut d’abord responsable scientifique, puis directeur.

On doit à l’intéressé l’algorithme product quantization (fouille en domaine compressé), mis en œuvre avec la bibliothèque de recherche vectorielle FAISS. Ses travaux récents ont touché à la compression des images autant qu’à celle des réseaux de neurones. Ses articles les plus cités sur Google Scholar touchent notamment, outre la compression, à la production de transformeurs sans convolution.

Laurent Mazaré, un assidu de Rust

Après des études de mathématiques appliquées et d’informatique à Polytechnique, Laurent Mazaré a obtenu un doctorat à l ‘intersection de la cryptographie et des méthodes formelles. Sujet de sa thèse, soutenue en 2006 à l’Institut polytechnique de Grenoble : « Protocoles cryptographiques : lien entre les vues symboliques et computationnelles ».

Laurent Mazaré travaillait depuis 2018 chez Jane Street. La firme de trading américaine avait déjà été son employeur entre 2013 et 2017, avant un passage chez DeepMind comme ingénieur de recherche dans la division vision artificielle.

On doit à Laurent Mazaré divers projets basés sur Rust : Candle (framework ML), tch-rs (wrapper pour l’API C++ de PyTorch), diffusers-rs (implémentation de l’API diffusers), etc. Ses articles les plus cités sur Google Scholar traitent notamment de l’opacité appliquée à la vérification des protocoles de sécurité.

Édouard Grave, d’Inria à FAIR

Édouard Grave a également Polytechnique sur son CV (master en apprentissage automatique et vision artificielle). Il a soutenu sa thèse en 2014 à Paris-VI (université Pierre et Marie Curie). Sujet : « Une approche markovienne à la sémantique distributionnelle ». Il y introduit une nouvelle méthode pour l’apprentissage de représentations de mots à partir de grandes quantités de texe brut.

Après sa période Inria (2010-2014), Édouard Grave a effectyé deux postdocs aux États-Unis, à UC Berkeley et à l’université Columbia. Passé par les laboratoires d’Apple MLR, il a codirigé, chez FAIR, le développement de LLaMA et de la bibliothèque fastText. Ses articles les plus cités sur Google Scholar traitent de l’enrichissement des représentations vectorielles, de la classification de texte et du transfert entre langues.

Neil Zeghidour, passé chez FAIR et chez DeepMind

Diplômé de Dauphine (finance quantitative) et de l’ENS Saclay (apprentissage automatique), Neil Zeghidour a soutenu sa thèse en 2019. Sujet : « Apprentissage de représentations de la parole à partir du signal brut ».

Après avoir travaillé pour FAIR entre 2015 et 2019, Neil Zeghidour était passé chez DeepMind. Il y a fondé et dirigé une équipe travaillant sur les modèles génératifs pour l’audio. Ses articles les plus cités sur Google Scholar traitent notamment de la séparation de sources audio et d’une architecture encodeur-décodeur pour la reconstruction d’images.

Alexandre Défossez connaît la musique

Diplômé d’un master en mathématiques appliquées à l’apprentissage automatique (ENS Saclay), Alexandre Défossez a conduit son doctorat en collaboration entre Inria et FAIR Paris. Sujet de sa thèse, soutenue en 2020 : « Optimisation de modèles d’apprentissage rapides pour l’analyse et la synthèse audio ». Il s’agissait de trouver une architecture pour résoudre des tâches telles que la modélisation d’instruments de musique ou la séparation des sources.

Alexandre Défossez aura passé près de dix ans chez Meta. Il y a travaillé pour l’équipe de machine learning appliqué. Et dirigé, en particulier, le développement du framework AudioCraft. Ses articles les plus cités sur Google Scholar traitent notamment de l’amélioration de la parole et de la convergence d’algorithmes d’optimisation (Adam et AdaGrad).

Illustration principale © Cyril Marcilhacy