La SNCF lance un défi estival aux data scientists

Pour établir un modèle permettant d’anticiper la fréquentation des gares de son réseau Transilien, la SNCF met des jeux de données à disposition des utilisateurs de datascience.net, plateforme francophone de challenges.

Après s’être lancée dans l’Open Data, la SNCF prend le train du Big Data. Pour disposer d’un modèle prédictif lui permettant de préciser la fréquentation des gares de son réseau Transilien, le groupe ferroviaire français met à disposition de data scientists des jeux de données dans le cadre d’un concours lancé via datascience.net.

Apprentissage et test pour les data scientists

Doté de 1 800 euros de « chèques cadeaux SNCF » à répartir entre les 3 meilleurs contributeurs, le concours est ouvert jusqu’au 30 septembre 2014. Deux échantillons de données sont proposés aux participants sous la forme de fichiers csv, à savoir : une liste de 276 gares et points d’arrêts du réseau SNCF Transilien pour établir le modèle de prévision (apprentissage), une liste de 105 gares pour le calcul de la performance du modèle (test).

Les amateurs peuvent aussi librement puiser dans les données ouvertes disponibles, les données publiques françaises du portail data.gouv.fr, par exemple, ou encore celles de la SNCF elle-même, via data.sncf.com.

Un « enjeu essentiel » pour la SNCF

Pour la SNCF, qui déclare transporter quotidiennement plus de 3 millions de voyageurs dans ses trains Transilien, l’enjeu est primordial. Il s’agit d’affûter sa connaissance de la fréquentation de ses gares pour proposer des aménagements, offres et services adaptés aux attentes d’usagers lassés des déboires et dysfonctionnements de l’entreprise publique : des mouvements de grèves aux TER trop larges pour les quais, sans oublier le « déficit de qualité de maintenance » évoqué dans un récent rapport d’experts suite à l’accident de Brétigny. Un rapport dont les conclusions restent contestées par la SNCF et Réseau Ferré de France (RFF)…

La plateforme datascience.net a été lancée en novembre 2013 auprès d’un petit cercle d’utilisateurs. Fruit d’une collaboration entre la société de conseil Bluestone et le Groupe des Écoles Nationales d’Économie et de Statistique (GENES), le sité hébergé par OVH offre la possibilité aux data scientists en devenir de gagner en visibilité en participant à des défis de grands groupes (SNCF, GDF Suez, Caisse des dépôts, Axa…). Les entreprises, de leur côté, peuvent obtenir des modèles prédictifs à moindre frais, mais aussi chasser de nouveaux talents.


Lire aussi

Le Big Data et l’analytique recrutent aux États-Unis comme en France

Pour Guillaume Pepy, la mutation de la SNCF repose sur le numérique