IA : Google peut différencier les voix dans les vidéos

LogicielsPoste de travail

Google est parvenu à développer un agent capable d’identifier les voix des personnes grâce à la vidéo. Il pourrait être utilisé dans Hangouts.

Google évoque le phénomène que la firme appelle « Cocktail Party » pour mettre en avant une nouvelle percée dans le domaine de l’intelligence artificielle.

Une véritable gageure en informatique

La firme de Mountain View explique en effet, dans un billet de blog, que si « les gens sont remarquablement doués pour concentrer leur attention sur une personne en particulier dans un environnement bruyant, en «atténuant» mentalement toutes les autres voix et tous les sons », cela reste une gageure à reproduire avec un ordinateur.

S’il s’agit d’un « problème bien étudié, cela reste un défi important pour les ordinateurs ».

Les réseaux neuronaux à la rescousse

Un défi que Google est visiblement parvenu à résoudre grâce à l’apprentissage automatique (machine learning en anglais).

Google Research a ainsi développé un réseau de neurones à convolution capable de reproduire l’effet «cocktail party», durant lequel le cerveau se concentre sur une seule source audio dans une salle bondée. Les résultats impressionnants ont été partagés par la filiale d’Alphabet au gré de différentes vidéos.

Google a baptisé cette technique « Looking to Listen » (littéralement « Regarder pour écouter ») car l’agent IA exploite à la fois les signaux auditifs et visuels, à l’instar du cerveau humain.

Un entraînement intensif

En vue de créer cet outil, Google a entrainé le réseau neuronal à l’aide de 100 000 vidéos de conférences de haute qualité de YouTube. De ces vidéos, ont été extraits les segments où n’apparaissent à l’écran qu’un seul orateur. Cet ensemble de données est appelé AVSpeech (Audio Visual speech).

A l’aide de cette dernière, Google a ensuite créé artificiellement, ce que le groupe appelle des cocktails synthétiques qui combinent dés vidéos de visages avec leur discours correspondant ainsi que du bruit de fond généré avec AudioSet.

Les usages potentiels ne manquent pas

Google explore maintenant les différentes manières d’utiliser cette technologie.

Celle-ci pourrait en particulier être utilisée dans des services de chat tels que Duo ou encore Hangouts, permettant de comprendre un interlocuteur qui parle dans un environnement bruyant. Elle pourrait également être intégrée dans des systèmes d’aide auditive avec caméra.

La vidéoconférence pourrait aussi largement en bénéficier.

Toutefois, on peut déjà pressentir les problèmes de confidentialité potentiels que cette technologie porte en germe. Mal utilisée, elle pourrait en effet être utilisée pour de l’écoute publique, sans le consentement des personnes concernées.

Vidéo signée Google :

(Crédit photo : @Google)

Lire aussi :

Lire la biographie de l´auteur  Masquer la biographie de l´auteur