Vocal Expo: la reconnaissance vocale progresse très vite

Promue à un brillant avenir – ne devait-elle pas remplacer l’interface physique du clavier ? – la reconnaissance vocale pourrait donner l’impression de faire du surplace. Pourtant il n’en est rien. Reportage sur le salon et les conférences de Vocal Expo

Une conférence exposition sur les applications vocales se justifie-t-elle ? Au vu des participants à ces conférences – visiteurs, exposants et conférenciers – que nous avons rencontrés, la réponse est oui.

Ces technologies sont en effet porteuses d’un énorme potentiel, mais le marché professionnel n’en est encore qu’à ses débuts face à ce qui l’attend. Certes, il reste difficile à cerner, et même s’il concerne encore peu d’acteurs côté fournisseurs, les clients et utilisateurs sont déjà très nombreux. Pourtant, ce domaine semble encore appartenir à celui de la recherche. Ce n’est cependant pas tout à fait l’avis de Jean-Paul Haton, professeur au LORIA INRIA, spécialiste de l’intelligence artificielle et de la reconnaissance vocale, qui a inauguré le cycle des conférences. « Le traitement de la parole arrive à maturité, mais nous continuons de faire évoluer les techniques de reconnaissance vocale. Le taux d’erreurs est décroissant au fur et à mesure que les technologies évoluent. Nous sommes aujourd’hui proches d’un taux d’erreurs de 10 %. » Une méthodologie qui pourtant n’a pas changée La reconnaissance vocale reste basée sur un modèle statistique. Entre le message vocal et le message reconnu viennent se placer les algorithmes de reconnaissance, qui fonctionnent salon un modèle stochastique (la parole dans le temps). Ces algorithmes reposent sur trois modèles : le modèle acoustique basé sur la technique ‘Martov caché‘ qui automatise la reconnaissance stochastique des états ; le modèle des mots autour d’un lexique ; le modèle linguistique basé sur la technique ‘n-grammes‘ liée aux probabilités de rencontrer des suites de mots. C’est l’ensemble de ces modèles qui forme un outil de reconnaissance vocale. Mais comme le reconnait le professeur Haton, « il y a un problème majeur : il faut disposer d’énormes bases de données pour atteindre un taux de performance pertinent. » Alors, qu’en est-t-il exactement ? En réalité, il faut discerner les outils individuels, comme la dictée vocale, qui ont fait leur preuve mais sous réserve de les utiliser dans un environnement favorable, et les outils collectifs, dont les performances se dégradent rapidement si on élargit le cercle de leur usage. Par exemple, la dictée vocale fonctionne aujourd’hui avec un fort taux de satisfaction, sous réserve que ce soit dans un environnent isolé. La même application dans un environnement sonore identique au niveau de la voix de l’utilisateur, donnera un résultat nul. De même, un système même simple de commandes en anglais affichera un taux d’erreurs de l’ordre de 3,6 % sur des natifs anglophones, mais de 34,9 % sur les non natifs. Le français qui s’exprime sur une machine à commande vocale programmée pour une population américaine rencontrera inévitablement des difficultés. « C’est l’adaptation des systèmes qui pose problème. Les systèmes ne sont pas robustes. Ils sont uniquement efficaces dans le cadre d’une utilisation déclarée. Il faut cadrer les conditions d’utilisation, modifier les modèles initiaux. Nous rencontrons encore de gros problèmes de temps d’adaptation qui restent élevés. » La conclusion technologique est donc mitigée. « La technologie a atteint un degré de maturité, mais le taux d’erreurs reste variable. Le problème n’est pas résolu« , nous confirme Jean-Paul Haton. Pourtant, chez les éditeurs présents, les applications tournent, et plutôt bien. En fait, ils appliquent une recette éprouvée : là où le niveau de pertinence de la technologie est suffisant, par exemple sur le tri des appelants dans le ‘call center’, les solutions sont efficaces. En revanche, il ne faut pas en attendre de tenir une conversation en plusieurs langues… Quelles sont alors les tendances pour le futur ? « La transcription, lors d’une conférence par exemple, est bien avancée. Le multilingue souffre encore de problèmes de compréhension. La traduction parole ? parole, qui passe par la reconnaissance, la traduction, puis la synthèse, n’est pas encore pour demain. Et l’on s’interroge encore sur les futurs modèles?«