Tribune: PRA, continuité d'activité, les vrais écueils qu'on oublie…

Les déboires récurrents constatés depuis quelque temps chez de grands opérateurs de services (téléphonie, voyages, trains, banque en ligne, etc.) posent questions : où est la faille ?

A constater et analyser ces gros ‘bugs’ qui ont fait et risquent de faire encore la ‘une’ de l’actualité, trois remarques s’imposent :

1/ L’attention, les énergies se focalisent trop sur les catastrophes et pas assez sur les pannes courantes La perte du centre informatique suite à un sinistre majeur est étudiée, alors que la panne de deux serveurs est négligée !

La catastrophe rare à gros dégâts est prise en compte. La combinaison ou l’enchaînement malheureux, somme toute assez courant, de pannes très handicapantes ne sont pas soumis à l’analyse.

Pire, la fréquence d’apparition de ces pannes est très fortement sous-estimée par les techniciens : « Cela arrive très rarement » entend-on dire souvent avec le sous-entendu : le risque est minime…

Or cela arrive beaucoup plus souvent que d’autres événements qui, eux, sont censés être couverts ! Sur le carré « probabilités x conséquences », seul un coin est étudié.

Peut-être que cela résulte du regard de la Direction Générale qui porte trop vers ce coin de l’accident très rare et très grave et se rassure avec un Plan de Reprise d’Activité (PRA) limité.

En conséquence, des pannes relativement fréquentes, qui vont se produire, ne sont pas prévues ! Cela rend toute réaction aléatoire lors de leur survenance. Des actions curatives rapides et efficaces sont ainsi totalement ignorées.

2/ En cas de panne, on cherche trop à récupérer les moyens techniques et pas assez à restaurer le service Une fois la panne survenue, tout le monde se démène pour réparer. On imagine que la réparation est la seule solution. On oublie la finalité de l’entreprise qui est de faire voyager des passagers par exemple ou de transférer des données.

Peut-être peut-on confier une bande magnétique à un coursier voire à un taxi lorsque le transfert de fichiers est en panne? Ou pourquoi pas faire payer les usagers à bord des trains si le paiement en ligne ou les bornes sont défaillants ?

Une réflexion est à mener sur les possibilités de « service dégradé » en cas de panne ; elle va bien au-delà des moyens techniques de l’entreprise dont elle envisage d’ailleurs de se passer un moment. Les responsables métiers doivent monter en première ligne sur ce thème : cela n’est pas dans les habitudes.

3/ La conception imagine toujours que tout va marcher

Les concepteurs de services ou de systèmes informatiques associés ne pensent pas naturellement à la panne. « Qu’est-ce qui peut aller mal?« , « Quel enchaînement de circonstances serait grave ou dramatique » ou « Que faire si cela tombe en panne ? » sont des questions rarement abordées dans les projets.

Cette préoccupation de continuité du service, naturellement transversale dans l’entreprise entre plusieurs entités n’est souvent assumée par personne. Les Etudes veulent surtout mettre en production leurs logiciels dans les délais et la Production veut se prémunir de pannes en achetant du matériel haut de gamme.

On arrive ainsi à des contradictions : en parant au plus pressé, on met en production des services risqués (entendez : pas fiables, peu testés) sur des machines inutilement coûteuses à tolérance de panne.

Pour la Direction Générale, le pire arrive alors : la solution technique onéreuse supposée fiable « plante lamentablement » et rien n’est prévu pour rétablir le service. C’est la faute à « pas de chance », en effet les équipes études sont à l’heure et la production a du bon matériel : alors, où est l’erreur ?

Moralité : On a tout intérêt à penser « service d’abord« , regarder les pannes en face, déterminer exactement les mesures que l’on prendra quand elles arriveront.

N’est-ce pas cela finalement le rôle de l’ingénierie ?

___

(*) Consultant, Duquesne Research, auteur de ‘Management de la continuité d’activité‘, Editions Eyrolles, 08-2008