Comment TotalEnergies alimente son usine à IA

TotalEnergies est un poids lourd de la data qui exploite un supercalculateur parmi les plus puissants au monde pour la simulation numérique et l’analyse des données géologiques.

En 2019, le groupe français accélère sa stratégie data, avec la création d’une Digital Factory qui compte environ 300 personnes, avec tous les profils nécessaires pour créer des solutions de A à Z, dont 40 personnes constituent l’équipe Data qui travaille sur les données de toutes natures.

« Les données historiques liées à la connaissance du sous-sol, ce que l’on appelle les géosciences, représentent plus de 50 Po de données » explique Michel Lutz, Group Chief Data Officer, à la tête de l’activité Data de la Digital Factory. « Ce sont des données que nous utilisons notamment dans le cadre du captage et du stockage du CO_2. Cela implique d’avoir une capacité de traitement pour ces très gros volumes de données. La donnée industrielle est un autre gisement énorme. Nous avons des millions de capteurs dans le monde entier qui nous renseignent sur le fonctionnement de nos assets industriels et notamment les nouvelles activités liées au photovoltaïque à l’éolien dont les capteurs sont nécessaires pour être plus efficients. »

Une data factory TotalEnergies au service des métiers

Pour Michel Lutz, la data science doit sortir du laboratoire et devenir une réalité de terrain.
En deux années d’activité, la Digital Factory a placé 66 applications et plus de 300 modèles de Data Science en production. « Ce sont des modèles connectés aux systèmes opérationnels, avec des stratégies de ré-entrainement des modèles et un monitoring de leurs performances. Tout cela est possible, car nous disposons de stacks techniques robustes, de chaînes CI/CD d’intégration et déploiement pour faire de la data science à un niveau industriel. »

Michel Lutz, Group Chief Data Officer, à la tête de l’activité Data de la Digital Factory.

Organisé sous forme de Squads d’une dizaine de personnes, chaque équipe fait entre 5 et 10 push en production par jour. Dans une telle organisation, les data scientists ne sont pas uniquement des scientifiques de la donnée qui travaillent sur leur Notebook, mais doivent avoir des compétences fortes en software engineering, savoir coder et tester leur code.

Selon Michel Lutz, l’accélération de cette production de modèles d’IA est venue de la mise en place de plateformes Cloud.

La Digital Factory exploite deux plateformes, une sur AWS, l’autre sur Azure. « Nous avons encore l’ambition de faire mieux, notamment aller vers une gouvernance centralisée de tous nos modèles au niveau de toute la compagnie. Un point de vigilance, c’est de trouver le bon équilibre entre une approche très industrielle de standardisation, mais garder une capacité d’innovation et de tester des nouvelles approches. Ce seront nos prochaines évolutions sur MLOps. »

L’ambition de la Digital Factory est de déployer ses IA au plus près des utilisateurs. Ainsi, les équipes ont conçu un modèle de vision artificielle pour de la reconnaissance de caractères gravés sur les tuyaux industriels. Ce modèle est déployé sur des smartphones.

Autre exemple de Data Science déployée au plus proche des utilisateurs : des modèles de machine learning créés pour la filiale productrice de batteries du groupe, SAFT. « Ces modèles ont été déployés dans l’usine : quand le technicien qualité fait ses mesures sur la batterie, cela génère une écriture en base de données dans l’usine et appelle le modèle de machine learning qui répond en temps réel sur une probabilité de non-qualité. Le process est déclenché par le multimètre, on est vraiment au plus proche des utilisateurs. » détaille Michel Lutz.

Du Machine Learning, mais seulement…

Si le machine learning et le deep learning sont les algorithmes d’IA dont on parle le plus, il ne représente qu’une part de l’activité des data scientists qui utilisent beaucoup de méthodes statistiques et d’algorithme venues de la recherche opérationnelle. 10 % des projets exploitent uniquement du machine learning sur des données supervisées, 20 % des applications mettent en œuvre du deep learning.

« Il est rare qu’un seul modèle puisse apporter la bonne réponse à l’utilisateur. Nous avons quasiment une solution sur deux qui combine plusieurs approches, soit plusieurs modèles, soit du machine learning et de l’optimisation. 80 % des 66 applications consomment de la data issue des systèmes historiques : systèmes de production, MES, CRM, etc. » précise-t-il.

Certaines applications s’appuient sur énormément de données, en maintenance préventive, issues de plus de 700 capteurs. Cette grande diversité de sources de données a un énorme impact sur les environnements techniques. Un catalogue de données a été mis en place pour fédérer l’ensemble de ces sources. Il compte aujourd’hui 6,3 millions d’objets. Des scripts de traitement et d’amélioration de la qualité des données ont été écrits pour 70 % des applications.

« Nous avons aujourd’hui la capacité technique de déployer très vite, mettre très vite des modèles en production et avoir un feed-back utilisateur, et améliorer nos modèles » souligne Michel Lutz.

Exemple de cette démarche, un modèle de prédiction de la consommation en gaz et électricité des sites industriels. « Dès que les premiers modèles étaient opérationnels, nous envoyions les prédictions aux utilisateurs via Teams afin d’échanger avec eux pour perfectionner les modèles. Ce n’est qu’à la fin que nous avons développé l’interface graphique. » mentionne-t-il.

Pour le Chief Data Officer, la transformation de TotalEnergies n’est pas qu’une affaire de data scientists isolés, mais un vrai projet d’entreprise. Toujours se poser la question que la data est bien au service du métier et de la transformation, la data doit être utile.