Les ingénieurs de LinkedIn fournissent beaucoup d’initiatives à la communauté Open Source dans différents domaines de l’IT. Aujourd’hui, ils viennent de mettre en ligne plusieurs outils pour aider les entreprises à faire face à une interruption de service de leurs applications ou sites web. En général, les grandes entreprises, comme LinkedIn, disposent d’un plan en cas d’incident intégrant une équipe d’ingénieurs d’astreinte. Mais comme l’explique, dans un blog, Daniel Wang, ingénieur en charge de la fiabilité du site, « que se passe-t-il quand on n’a personne au téléphone ? Par le passé, nous avons adressé cette problématique manuellement avec les ingénieurs du NOC (Network Operation Center) ». Une technique qui a eu ses limites, car le nombre d’alertes a explosé par rapport aux ingénieurs disponibles pour y répondre, admet le responsable.
Le fruit de ces efforts se nomme Iris (du nom de la déesse grecque messagère des dieux) et Oncall. Le premier service est une solution automatisée de messagerie de remontée d’incident. LinkedIn a testé Iris pendant 2 ans et a constaté une sensible amélioration dans la gestion des interruptions ou des dégradations de services. Ce projet a permis aussi à l’entreprise de créer une planification des processus à faire en cas de remontée d’incident. Par exemple, l’ingénieur d’astreinte peut faire une requête auprès d’un utilisateur pour avoir plus d’information. Iris va être capable de le notifier et même de rappeler l’utilisateur si aucune réponse n’a été faite. Beaucoup de choses sont paramétrables dans Iris dont la liste des contacts en fonction du degré de gravité de l’intervention (faible à urgent), mais également le moyen de communications, Slack, SMS, mails.
L’autre projet, Oncall, mis en Open Source est « la source de confiance » d’Iris pour savoir qui est le référent à appeler au sein d’une équipe, explique Daniel Wang. Il s’agit d’un outil de planification des astreintes pour les référents. Ce calendrier est flexible et modifiable. A la création de ce service, LinkedIn a travaillé à l’automatisation de certains comportements en fonction des types d’alertes. La progression des alertes face au manque de personnel rendait ce besoin impératif.
Les deux services sont disponibles sur GitHub. Pour Iris, il suffit de cliquer ici et pour Oncall, il faut cliquer là.
A lire aussi :
Les profils de LinkedIn viennent enrichir Dynamics 365, l’ERP Cloud de Microsoft
Facebook titille LinkedIn en ouvrant ses fonctions Emplois
Broadcom a repris seul la main sur la vente de l'offre VMware d'AWS... qui, dans…
Microsoft expérimente, sous la marque ZTDNS, une implémentation des principes zero trust pour le trafic…
Accord de principe entre créanciers, propositions de reprise, discussions avec l'État... Le point sur le…
Un temps pressenti pour constituer le socle d'une suite bureautique AWS, Amazon WorkDocs arrivera en…
Eviden regroupe cinq familles de serveurs sous la marque BullSequana AI. Et affiche le supercalculateur…
Le dernier Magic Quadrant du SSE (Secure Service Edge) dénote des tarifications et des modèles…