Avec Brainwave, Microsoft traite l'IA en temps réel dans Azure

Conçu à partir d’une architecture distribué sur des puces FPGA, le Projet Brainwave permet à Microsoft de traiter l’IA en temps réel dans le Cloud.

Microsoft poursuit ses avancées en matière d’intelligence artificielle, et plus particulièrement dans son traitement. La semaine dernière, à l’occasion de Hot Chips 2017, l’éditeur de Redmond a dévoilé Project Brainwave, une solution matérielle de traitement du deep learning (apprentissage en profondeur ou réseaux de neurones).

Brainwave s’appuie sur des puces FGPA (reprogrammables) d’Intel (la Stratix 10 d’Altera en l’occurrence) architecturées pour mettre en oeuve une plateforme de traitement d’intelligence artificielle en temps réel. Cette architecture de système distribué à haute performance est intégrée directement dans les data centers de Microsoft, Azure en l’occurrence, avec une exploitation en mode DNN (Deep Neural Network).

IA en temps réel

« Project Brainwave réalise un grand pas en avant dans la performance et la flexibilité pour le service basé sur le cloud des modèles d’apprentissage en profondeur, se réjouit Doug Burner, Distinguished Engineer chez Microsoft. Nous avons conçu le système pour l’IA en temps réel, ce qui signifie que le système traite les requêtes aussi rapidement qu’il les reçoit, avec une latence ultra-basse. »

Reprogrammable, le FPGA apporte une certaine flexibilité si on le compare aux puces directement conçues pour une application IA donnée de type DPU (Deep Learning Processing Unit). La plateforme dispose également d’un compilateur et un runtine destinés au déploiement de modèles qualifiés.

Project Brainwave a été conçu pour supporter un large éventail de frameworks destinés au traitement du deep learning tels que Microsoft Cognitive Toolkit et Google Tensorflow. Microsoft assure qu’il prévoit d’en supporter d’autres.

Plus de 130 000 opérations de calcul par cycle

Beanchmark à l’appui, l’éditeur démontre que la solution permet de traiter les tâches à la volée. Les performances atteignent ainsi 39,5 téraflops, avec un temps de latence d’une milliseconde pour chaque requête, le tout grâce à l’exécution de plus de 130 000 opérations de calcul par cycle.

Microsoft n’est pas le seul acteur de la sphère IT à avoir recours à des puces spécialisées dans le traitement IA. Google et Amazon occupent également le terrain, tandis qu’Apple a développé le Neural Engine. Une approche différente de celle de Redmond, puisque les traitements ne s’effectuent pas dans le Cloud mais bien localement sur l’appareil qui embarque la puce dédiée à l’IA.

Lire également
Avec Catapult, Microsoft teste les puces programmables pour datacenter
Intel livre une clé USB à 79 dollars pour le Deep Learning
AMD booste le Deep Learning avec la carte Radeon Instinct MI25