Pour gérer vos consentements :

IA : Google peut différencier les voix dans les vidéos

Google évoque le phénomène que la firme appelle « Cocktail Party » pour mettre en avant une nouvelle percée dans le domaine de l’intelligence artificielle.

Une véritable gageure en informatique

La firme de Mountain View explique en effet, dans un billet de blog, que si « les gens sont remarquablement doués pour concentrer leur attention sur une personne en particulier dans un environnement bruyant, en «atténuant» mentalement toutes les autres voix et tous les sons », cela reste une gageure à reproduire avec un ordinateur.

S’il s’agit d’un « problème bien étudié, cela reste un défi important pour les ordinateurs ».

Les réseaux neuronaux à la rescousse

Un défi que Google est visiblement parvenu à résoudre grâce à l’apprentissage automatique (machine learning en anglais).

Google Research a ainsi développé un réseau de neurones à convolution capable de reproduire l’effet «cocktail party», durant lequel le cerveau se concentre sur une seule source audio dans une salle bondée. Les résultats impressionnants ont été partagés par la filiale d’Alphabet au gré de différentes vidéos.

Google a baptisé cette technique « Looking to Listen » (littéralement « Regarder pour écouter ») car l’agent IA exploite à la fois les signaux auditifs et visuels, à l’instar du cerveau humain.

Un entraînement intensif

En vue de créer cet outil, Google a entrainé le réseau neuronal à l’aide de 100 000 vidéos de conférences de haute qualité de YouTube. De ces vidéos, ont été extraits les segments où n’apparaissent à l’écran qu’un seul orateur. Cet ensemble de données est appelé AVSpeech (Audio Visual speech).

A l’aide de cette dernière, Google a ensuite créé artificiellement, ce que le groupe appelle des cocktails synthétiques qui combinent dés vidéos de visages avec leur discours correspondant ainsi que du bruit de fond généré avec AudioSet.

Les usages potentiels ne manquent pas

Google explore maintenant les différentes manières d’utiliser cette technologie.

Celle-ci pourrait en particulier être utilisée dans des services de chat tels que Duo ou encore Hangouts, permettant de comprendre un interlocuteur qui parle dans un environnement bruyant. Elle pourrait également être intégrée dans des systèmes d’aide auditive avec caméra.

La vidéoconférence pourrait aussi largement en bénéficier.

Toutefois, on peut déjà pressentir les problèmes de confidentialité potentiels que cette technologie porte en germe. Mal utilisée, elle pourrait en effet être utilisée pour de l’écoute publique, sans le consentement des personnes concernées.

Vidéo signée Google :

(Crédit photo : @Google)

Recent Posts

La Fondation Linux a fait son choix pour remplacer Redis

La Fondation Linux apporte son soutien à Valkey, un fork de Redis qui vient d'émerger…

33 minutes ago

Quels sentiments animent la communauté OpenAI ?

Le contenu du forum officiel de la communauté OpenAI donne des indications sur les points…

1 heure ago

Emmanuelle Olivié-Paul — AdVaes : « Le premier enjeu du scope 3 c’est d’avoir les données pour faire une évaluation »

Dans une interview accordée à Silicon, Emmanuelle Olivié-Paul, présidente-fondatrice du cabinet de market intelligence AdVaes,…

2 heures ago

Étude Trends of IT 2024 : comprendre les mutations de l’environnement IT

Silicon et KPMG lancent Trends of IT 2024, une étude co-construite avec les managers IT…

19 heures ago

Guillaume Poupard, DGA de Docaposte : « Le plus de l’offre, c’est notre position comme acteur de confiance »

Avec son Pack cybersécurité lancé au Forum InCyber 2024, Docaposte tend une perche aux PME.…

19 heures ago

Quels impacts de l’IA générative sur le monde de la cybersécurité ? : regards croisés entre Onepoint, Wavestone et Fortinet

Quels sont les impacts immédiats de l'IA générative sur la cybersécurité ? Comment le contexte…

23 heures ago