Pour gérer vos consentements :

IA : Facebook partage fastText, ses travaux sur le langage naturel

Le laboratoire de recherche en intelligence artificielle de Facebook (le FAIR) vient de verser fastText en Open Source. FastText est une bibliothèque d’applications conçue pour construire des solutions évolutives de représentation et de classification de textes. Autrement dit, des outils d’intelligence artificielle pour interpréter le langage humain. Les chercheurs du réseau social ne se contentent pas d’ouvrir librement leurs sources logicielles au plus grand nombre (sur GitHub), ils se proposent également de partager leurs travaux de recherche (ici et ).

L’apprentissage de la sémantique est l’un des plus grands défis auquel est aujourd’hui confrontée l’intelligence artificielle. Il s’agit de faire comprendre et interpréter le sens des expressions, écrites ou orales, d’un humain par une machine. « Mais c’est un besoin essentiel, estiment les chercheurs Armand Joulin, Edouard Grave, Piotr Bojanowski et Tomas Mikolov dans une contribution de blog. Le traitement de texte automatique constitue un élément clé de l’interaction au jour le jour avec votre ordinateur; c’est un élément essentiel que ce soit pour la recherche sur le Web, le classement des contenus ou le filtrage du spam, et quand cela fonctionne bien, c’est complètement invisible pour vous. Avec la quantité croissante de données en ligne, il y a un besoin d’outils plus souples pour mieux comprendre le contenu de très grands ensembles de données, afin de fournir des résultats de classification plus précis. »

FastText et l’approche par classement

D’où l’idée de partager les recherches internes avec la communauté scientifique dans l’espoir d’accélérer les développements dans le domaine du traitement informatique du langage humain. Une démarche similaire à celle de l’Open Compute Project (OCP) du même Facebook pour améliorer le design hardware des éléments du datacenter. Les travaux de fastText s’attachent notamment à traiter des représentations de phrases composées de « sacs de mots » et d’informations issues de mots secondaires, et à les partager. L’objectif immédiat visant à classer efficacement les textes et à « apprendre » les mots par des représentations vectorielles.

L’approche de la solution de Menlo Park permettrait ainsi de palier les limites que les réseaux neuronaux informatiques rencontrent avec les grands ensembles de données. En utilisant des classificateurs hiérarchiques au lieu d’une structure plane dans laquelle les différentes catégories sont organisées en arbre. « Cela réduit le temps [de traitement] dû à la complexité de formation et de tests des classificateurs de texte [qui passent d’un mode] linéaire à [un mode] logarithmique en respectant le nombre de classes », souligne les contributeurs du billet.

Quelques secondes contre plusieurs heures

Résultat, la où les solutions comme Char-CNN ou VDCNN mettent plusieurs heures à interpréter du contenu Yahoo, fastText n’aurait besoin que de 5 secondes. Avec un taux de pertinence d’interprétation similaire, voire supérieur, aux offres concurrentes, selon Facebook. « FastText peut également classer un demi-million de phrases parmi plus de 300 000 catégories en moins de cinq minutes », assurent les chercheurs. Et cela dans différentes langues occidentales, dont l’anglais, l’allemand et le français. L’objectif final étant de construire des solutions qui sauront interpréter le langage naturel aussi bien que les humains. Un doux rêve qui relève aujourd’hui encore de la science-fiction.


Lire également

Yann LeCun, Facebook : l’intelligence artificielle est son amie
Aera 404 de Facebook : un lab hardware en mode collaboratif
Machine Learning : langage naturel et traduction sur le Cloud de Google

Photo credit: eston via VisualHunt / CC BY-NC-SA

Recent Posts

Cybersécurité : pourquoi Pradeo s’offre la start-up rennaise Yagaan

En prenant le contrôle de Yagaan, Pradeo dit engager la consolidation entre acteurs français de…

3 heures ago

6 casques VR pour le métavers d’entreprise

Quelles portes d'entrée dans les métavers B2B ? Côté casques, voici six modèles d'autant de…

4 heures ago

ESN 2022 : le top 10 en France

L'année 2021 est marquée par une croissance de 12 % pour les ESN et ICT,…

5 heures ago

OpenStack assouplit sa politique de saut de version

OpenStack va simplifier le basculement entre des versions majeures non consécutives, avec les mêmes garanties…

8 heures ago

5 scale-up françaises de cybersécurité à retenir

De Ledger à HarfangLab, des entreprises et start-up françaises de sécurité cyber et protection de…

1 jour ago

Linux : Debian passe au firmware propriétaire

Debian 12 va officiellement inclure du microgiciel propriétaire. Un coup de canif dans le "contrat…

1 jour ago