A l’occasion du AWS Summit, la SSII D2SI et le groupe Veolia ont partagé leur expérience de Gaming Day. Veolia a testé cette méthode au sein de ses équipes DevOps. Laurent Pulce, DSI de Veolia Global Enterprise, évoque la genèse du projet. « Depuis 3 ans, nous bougeons nos assets sur le Cloud majoritairement sur AWS avec des réflexions pour aller sur des applications Cloud natives. Lors d’une discussion avec les gens d’AWS, je leur ai demandé si leur infrastructure était robuste et je me suis aperçu que la réflexion n’était pas la bonne. La problématique était plutôt en interne, en basculant dans le Cloud, les équipes ont évolué en mode DevOps. Il nous fallait donc un moyen de les éprouver. »

Un stress test en mode ludique

Le choix s’est donc porté sur le Gaming Day. A travers un jeu les réactions et les compétences des équipes DevOps, ce concept éprouve et analyse la validité des processus dans la gestion de crise. « Dans notre cas, nous étions plutôt confiant dans les différents processus mis en place, comme pour la réalisation d’une solution de backup où on est content de l’avoir fait, mais l’usage peut révéler des surprises », affirme Laurent Pulce. Autre point soulevé par le DSI : « Nous voulions avoir une vision extérieure pour connaître nos faiblesses et nos forces. » D’où l’idée de passer avec D2SI, ESN spécialisée dans l’environnement AWS et habituée à réaliser des formations, ainsi que des Gaming Days.

Cette technique requiert quelques prérequis, explique Jean-Charles Fesantieu, directeur des opérations chez D2SI et qui a accompagné Veolia. « Il y a plusieurs notions à prendre en compte : la répétition, plus les personnes apprennent et répètent les procédures mieux c’est. Une mer calme ne fait pas un bon marin, cela signifie qu’il faut se confronter à des situations de crise pour juger des compétences. Enfin, ce n’est pas en situation de crise que l’on apprend le plus, c’est un élément pour se perfectionner. » Le postulat de l’état d’esprit étant posé, le Gaming Day nécessite la mise en place de certains éléments comme « un environnement de simulation avec différents systèmes, car parfois les informaticiens ne touchent pas pendant quelques temps certains systèmes et cela peut être un risque en cas de crise ». La mise en place de cet environnement de simulation a pris du temps. Pour Veolia, cette étape a duré entre 6 et 8 semaines et mobilisé 10 jours hommes.

Le DevOps devient une réalité et ambitions sur le Gaming Day

Le jour J, 2 équipes ont été mise en place avec « des séquences itératives toutes les 30 à 40 minutes ». Le but est simple : « On prend la stack et on la casse petit à petit en remontant les couches : mauvaise configuration réseau à cause d’une erreur humaine, crash applicatif ou mauvaise livraison, drop table aléatoire dans la base de données, etc. ». A chaque situation, les équipes encadrées par un spécialiste doivent détecter l’incident, le gérer et le résoudre. Après, les différents scénarios, il y a un debriefing sur les incidents : quelles sont les solutions pour améliorer l’architecture, quels sont les axes de progrès techniques et comportementaux à avoir ? « On s’aperçoit que la mise en place de bonnes pratiques est important, qu’au sein d’AWS, on utilise pas complètement les différents services. Or certains fournissent des métriques qui sont des mines d’or dans certaines situations », constate Jean-Charles Fesantieu.

Pour Laurent Pulce, « le gaming day a démontré que notre intégration de stratégies d’automatisation est bonne et solide. Le plus surprenant a été l’intérêt suscité au sein des équipes DevOps par cet évènement. Cela a créé une cohésion de groupe. Le DevOps devient une réalité ». Il souhaite maintenant systématiser cet évènement, « sur des gros objets applicatifs dans le Cloud » et d’évoquer par exemple le cas du « datawarehouse, cela vaut le coup de le faire car le mix des équipes est différent ». Il veut mettre également dans la boucle « les porteurs d’applicatifs pour comprendre et apprendre ». Enfin, pour l’avenir, le DSI envisage d’intégrer dans le gaming day, « le SD-WAN, la stack réseau va devenir importante et les DevOps vont être obligés de gérer cet aspect ».

