Categories: CloudSaaS

Document AI : Google Cloud pose un support aux démarches big data

Google accentue sa communication au sujet de Document AI. Sous cette bannière, le groupe américain entend favoriser l’exploitation des données non structurées. Pour cela, il met à contribution plusieurs des outils algorithmiques hébergés sur son cloud.

Dans l’absolu, Document AI n’est pas nouveau. Sa présentation remonte à la Cloud Next ’19. Le contenu de l’offre a toutefois récemment évolué, avec le passage de l’API en v1beta3. Et l’élargissement du catalogue de « processeurs » (outils de traitement) sur lesquels elle se fonde.

Deux de ces processeurs, qualifiés de « génériques », sont en accès public. L’un met en œuvre l’OCR (sur une cinquantaine de langues en manuscrit ; 200 en tapuscrit). L’autre permet de traiter des formulaires.

L’accès aux autres processeurs se fait pour le moment sur demande. Parmi eux, un générique (scission de documents) et deux catégories de « spécifiques », dédiés respectivement à la gestion des emprunts et de la facturation.

Dans ces deux domaines, l’essentiel des documents pris en charge concernent les États-Unis. De manière plus générale, l’anglais est la seule langue que traite actuellement Document AI. Sauf pour l’OCR, donc (fonctionnalité qu’on peut tester ici avec des PDF de 5 pages maximum ; le fichier que nous avons téléversé comprenait des noms, des numéros de téléphone et des adresses postales et électroniques, correctement détectés).

Il est d’autant plus difficile d’interpréter la tarification du service que Google Cloud fait la jonction avec d’autres de ses produits. Par exemple les API Vision et Natural Language, ainsi que le portefeuille AutoML. Ce dernier ouvre la porte à la classification de documents ou encore à l’extraction d’entités.

Les traitements s’effectuent par défaut dans une région Google Cloud aux États-Unis. Il est toutefois possible de basculer vers l’Union européenne.

Photo d’illustration © Jirapong – stock.adobe.com

Recent Posts

Investissements IT : près de 4 trillions $ prévus en 2021

Les technologies de l'information font plus que soutenir l'activité, elles deviennent "le business". Tous les…

11 heures ago

Développement : y-a-t-il des limites au DevOps et au tout code ?

Futur de l'IT - Avec le DevOps, les métiers sont mieux écoutés et les développeurs…

12 heures ago

AWS – Elasticsearch : le conflit engendre un fork

En conflit avec l'entreprise qui porte le projet open source Elasticsearch, AWS a décidé d'en…

13 heures ago

DevOps : GitLab muscle les « Cloud Paks » d’IBM

GitLab, plateforme de développement logiciel, intégration et déploiement continus, vient renforcer les "Cloud Paks" d'IBM.

16 heures ago

Chromium : Google coupe (un peu) le cordon

Google va bloquer l'usage de certains de ses services par Chromium et les navigateurs qui…

16 heures ago

Microsoft révise ses programmes de licence à l’aune du cloud

Microsoft permet désormais la vente de licences perpétuelles dans le cadre du programme Cloud Solution…

3 jours ago