Le Machine Learning vient au secours du Big Data

Créée en septembre 2013, la chaire Machine Learning for Big Data, de Télécom Paris Tech, tenait cette semaine ses premières rencontres. L’occasion de faire le point sur les travaux de recherche de cette chaire à la frontière de l’informatique et des mathématiques. Rappelons que le Machine Learning, ou apprentissage statistique, est souvent rapproché du Big Data du fait de sa capacité à dépasser les méthodes traditionnelles basées sur le prétraitement humain et la modélisation. Les algorithmes de Machine Learning ont « vocation à réaliser des tâches qui ne pouvaient pas être effectuées jusqu’à présent du fait de la complexité et de la masse des informations disponibles », explique Télécom Paris Tech. Dépasser ces limites présente un intérêt dans de nombreuses industries. Comme en témoigne la diversité des partenaires qui ont financé la chaire à hauteur de 2 millions d’euros sur 5 ans : Criteo, PSA Peugeot Citroën et BNP Paribas.

Si la présence du spécialiste de la pub en ligne apparaît naturelle, celle des deux industriels est a priori plus surprenante. « Pour un constructeur automobile, le Big Data se traduit par plusieurs chantiers ou défis : une meilleure utilisation des données que nous possédons en interne, une exploitation des données externes, l’optimisation de la conception des véhicules et le développement de services liés à la voiture connectée. C’est sur ce dernier point que les enjeux sont les plus importants et où la dimension recherche est la plus indispensable, explique Jean-Pierre Dumoulin, directeur technique et sécurité à la DSI de PSA Peugeot Citroën. C’est aussi là où nous avons le plus besoin de nous ouvrir à d’autres expériences. » Chez Safran, le Machine Learning vise avant tout à offrir des services de maintenance préventive sur les moteurs d’avion. Autrement dit, à prévoir un dysfonctionnement avant qu’il n’immobilise l’avion… ou pire. « Nous menons déjà des analyses des multiples données collectées afin de guider les opérations de maintenance », précise d’entrée Alain Coutrot, directeur adjoint de la R&D du groupe industriel. L’objectif est d’aller plus loin. « Par exemple de détecter les prémisses d’une panne dans des événements extrêmement rares affectant les moteurs », reprend le responsable. Un scénario où la modélisation a priori est, par définition, inefficace. Pour Safran, les enjeux sont d’autant plus grands que le groupe prévoit que les contrats avec ses clients seront probablement indexés à l’avenir sur les heures de vol et non plus sur la vente de l’équipement à proprement parler.

Le goulet du recrutement de Criteo

Alain Coutrot identifie un second enjeu pour son entreprise : la gestion du continuum de données. « Pendant sa durée de vie – soit 30 à 40 ans –, un moteur d’avion produit un grand volume d’informations. Nous avons conservé ce stock de données, mais il est en désordre. Nous cherchons à avoir un accès rapide à cette somme d’expérience pour en sortir des conclusions transcendant les capacités de nos experts. »

Pour Criteo également, l’objectif de son association à la chaire est de dépasser ses connaissances actuelles. « Nous arrivons à un tel degré de spécialisation que nous avons besoin de l’appui du monde académique », dit Nicolas Le Roux, le responsable du programme scientifique du spécialiste du reciblage publicitaire. Autre objectif pour la société : recruter ces profils de spécialistes des statistiques et de l’IT (les data scientists) que tout le monde s’arrache. « C’est clairement le frein majeur au développement de Criteo aujourd’hui », assure Nicolas Le Roux.

Sur le volet formation, la chaire, dirigée par Stéphan Clémençon, maître de conférence à Télécom Paris Tech, propose une spécialisation à la formation d’ingénieurs ainsi qu’un mastère spécialisé. Ses activités de recherche se déploient selon 5 axes principaux : apprentissage par renforcement (pour les algorithmes prenant des ‘décisions’ automatiques, par exemple dans le monde de la finance), extraction automatique des propriétés des réseaux (notamment sociaux), le ranking et la détection d’anomalies, les algorithmes d’apprentissage distribués et l’apprentissage dans un cadre évoluant rapidement (bases de données mises à jour en temps réel par exemple).