Ignite 2023 – Microsoft et l’IA : coup d’œil sur le traitement d’images

Aperçu, à la faveur de la conférence Microsoft Ignite 2023, de l’évolution des services de traitement des images sur Azure.

Comment l’offre de services de traitement du langage naturel se développe-t-elle chez Microsoft ? Dans le cadre de la conférence Ignite 2023, nous avons fait un bilan.
En voici un autre, axé sur la discipline de la vision par ordinateur.

Sur Video Indexer

[Ce service fait partie de l’offre Azure AI, orientée développeurs par opposition à Azure ML, axé data scientists. Il s’appuie sur une trentaine d’IA pour traiter les vidéos.]

Video Indexer fait partie des services que Microsoft propose d’exécuter en périphérie, à travers Azure Arc. Il faudra plus précisément attendre le 15 décembre 2023. À partir de là, on pourra expérimenter cette « version edge » qui reposera sur un cluster AKS. Les fonctionnalités disponibles : transcription, traduction/sous-titrage, extraction de scènes, OCR, détection d’objets… et intégration de modèles tiers. En cas de manque de ressources, les traitements déborderont dans le cloud.

Video Indexer edge

Autre nouveauté de Video Indexer mise en avant à l’occasion de l’Ignite 2023 : la possibilité d’ajouter des étiquettes personnalisées et du texte libre en guise de métadonnées. Ces éléments seront pris en compte lors de la recherche.

Video Indexer tags custom

À noter également, une bêta en accès limité pour des fonctionnalités additionnelles de personnalisation du modèle People – destiné à reconnaître des personnes spécifiques.

– Un « score de qualité » basé sur le nombre d’images utilisées pour l’annotation
– La possibilité de définir, au niveau utilisateur, un autre modèle par défaut que le standard
– Le regroupement des images non identifiées mais susceptibles de représenter une même personne (illustration ci-dessous)

Video Indexer même personne

Sur AI Vision

[Cette gamme regroupe quatre services, sous les marques OCR, Analyse d’image, Visage et Analyse spatiale.]

Une fonctionnalité déjà présente dans Windows Hello fait son apparition sur l’API Visage : la détection de présence physique. Objectif : s’assurer, lors d’une reconnaissance faciale, qu’on est bien en présence d’une personne.

Vision liveness detection

Autre API qui évolue : celle dédiée à l’analyse d’image. Elle passe en v4 avec, entre autres capacités, le légendage par objet. Sous le capot, il y a Florence, un LLM made in Microsoft.

Vision Image Analysis API

Sous la marque Video Retrieval, Microsoft introduit un système d’indexation vectorielle de vidéos. Il alimentera notamment le modèle GPT-4 « avec vision », promis en bêta publique « pour bientôt » sur Azure OpenAI Service.

Vision Video Retrieval API Microsoft

Sur Azure OpenAI Service, il y a aussi du nouveau en matière de « sûreté de l’IA ». Dont la possibilité de configurer la sensibilité de tous les filtres de contenu.

Azure OpenAI sensibilité filtres Microsoft

Un système de détection d’anomalies liées à l’injection de prompts est en bêta publique. Idem pour la détection d’éléments « protégés ». Optionnelle, elle empêche les IA de produire des contenus correspondant à deux index, dont un fondé sur les projets GitHub publics.

S’y ajouteront « bientôt » les filtres asynchrones. La modération pourra donc s’effectuer « au fil de l’eau ». Et le contenu, s’afficher progressivement, plutôt que d’attendre qu’il soit complètement généré pour ensuite le modérer.

Illustration principale © Patrick Helmholz – Adobe Stock