Haut de page

Comment Opsgenie & Status page vous aident à réduire l’impact de vos incidents IT ?


Publié par
Erin Collins

4 mars 2020

Dans notre dernier article, nous avions abordé les éléments clés à prendre en compte pour optimiser la gestion de vos incidents IT. Nous avions également évoqué les challenges que doivent relever les partenaires informatiques, tels que Valiantys, pour fournir des solutions IT toujours plus performantes, dans un monde toujours plus connecté. Aujourd’hui, avec Opsgenie et Status page, vous réduisez l’impact des incidents IT en réagissant aux événements imprévus et aux interruptions de service ; et en agissant au plus tôt, vous réduisez les coûts engagés et les frustrations de vos utilisateurs.

Découvrez comment à travers les histoires respectives de Kevin et Bill.


Qui est Kévin ?

Kevin est Directeur IT chez Global Brands, distributeur majeur dans l’agro-alimentaire.

Global Brands est une société britannique : son siège social est à Londres et certaines de ses entités sont basées à Hong Kong, Mumbai et Kansas.

Son service IT utilise l’outil Jira Service Desk d’Atlassian, pour mener l’ensemble de ses procédures incluant la gestion des incidents, des problèmes, des requêtes et des changements.

Depuis désormais un an, l’équipe IT exploite les outils Jira Service Desk et Status Page pour réduire les perturbations liées à la gestion des incidents. En effet, les équipes commerciales ont remonté une très mauvaise communication en cas d’incidents majeurs, tant au niveau de la réactivité qu’au niveau du message. Kevin s’est donc empressé de trouver une solution efficace pour évaluer le coût des pannes pour le département IT et les autres départements.


Qui est Bill ?

Bill est Manager réseau et provisoirement Directeur IT chez C-Sweet Systems, fabricant de câbles industriels.

C-Sweet est basé à Londres avec des usines dans tout le pays et des centres de distribution dans le monde entier : New York, San Francisco, Dubai, Sydney, Hong Kong et Rotterdam.

Au siège de Londres, les équipes IT utilisent l’outil Jira Service Desk d’Atlassian pour gérer toutes leurs procédures ITSM. Les équipes métiers (RH, Marketing, Finance) ont également adopté Jira Service Desk pour mener à bien leurs tâches.

En 2021, C-Sweet souhaite développer des nouveaux produits de câblage destinés aux plateformes pétrolières et aux technologies High-G. Elle a pour projet également de proposer une plateforme pour gérer les demandes clients, les réclamations et les modifications de service.


Opsgenie, ou comment bien débuter son weekend

Londres, vendredi 28 Février, 18h05.

Kevin et Bill sont en route pour trinquer à la fin de la semaine et au weekend qui s’annonce ensoleillé. Malheureusement, à quelques minutes de leur weekend (et de leurs bières), ils reçoivent chacun un message d’alerte concernant un incident IT qui peut avoir un impact énorme sur la performance de leur entreprise.

Kevin entre dans le bar, commande sa pinte et s’installe tranquillement à une table. Depuis sont smartphone, il appuie sur la notification pour prendre connaissance de l’incident et il le résout en appuyant sur un bouton. Le temps que sa pinte arrive, il clique une dernière fois sur un bouton pour partager la résolution de l’incident.

De son côté, Bill doit retourner en urgence au bureau. Il se connecte à la plateforme de tickets et entame la procédure de résolution d’incidents :
il se connecte au réseau et au service à distance, trouve le script qu’il doit exécuter pour réparer le service. Il exécute la réparation, teste que le service fonctionne correctement, puis indique par SMS que l’incident est résolu à l’équipe Support qui gère les appels des utilisateurs rencontrant des problèmes. Enfin, il se déconnecte et envoie un SMS à Kevin : « Désolé, on remet ça la semaine prochaine ? »

L’équipe de Kevin a en effet configuré Opsgenie pour gérer et résoudre les incidents entrants, dans la minute. Quant à l’équipe de Bill, elle utilise un système de gestion des incidents qui n’est pas intégré à la plateforme Atlassian.

Communication et collaboration valent mieux que précipitation

Dans notre histoire, Kevin et Bill savaient tous les deux comment résoudre durablement cet incident, mais Bill devait le faire manuellement et il lui a fallu 45 minutes (sans compter le temps de trajet entre le pub et son bureau). Mais les incidents ne sont pas toujours aussi faciles et il n’existe pas toujours de solution de contournement.

Dans le cas d’entreprises décentralisées, les équipes collaborent aux 4 coins du monde. Communiquer par SMS, chat ou encore via email est suffisant pour les tâches simples. Mais lorsqu’il s’agit de faire face à des défis techniques très complexes, ce n’est plus facile de communiquer et rien ne vaut la communication face-à-face, les captures d’écran ou les visioconférences. Opsgenie dispose d’un Centre de Commandement des Incidents (ICC – Incident Command Center), où votre équipe peut résoudre les incidents en collaboration avec les équipes qu’elles soient localisées à Hong Kong, San Francisco, Mumbai ou Slough. Vous pouvez déclencher facilement une salle de crise en cliquant sur le lien ICC et ainsi mener de front la résolution des problèmes.

Se concentrer sur ce qui compte

Ce n’est pas seulement parce que c’est une des valeurs de Valiantys. C’est aussi ce que Kevin et Bill doivent intégrer dans leur gestion, pour que les incidents majeurs soient repérés et résolus, et que les incidents récurrents soient identifiés et poussés dans le workflow de gestion des problèmes.

Un système de gestion d’événements produit beaucoup d’activité et de perturbations. Mais en ajoutant Opsgenie à votre système, vous améliorerez le filtrage de vos alertes. Vous augmenterez aussi l’efficacité du système d’alerte en travaillant avec des plannings et des équipes d’astreintes.

L’équipe de Kevin a investi beaucoup de temps et d’efforts pour configurer les alertes de leur système de gestion d’événements et ils n’ont pas eu à réinventer la roue lorsqu’ils l’ont connecté à Opsgenie. En utilisant les règles qu’ils avaient déjà en place, ils ont configuré Opsgenie pour que l’outil crée un ticket Jira en cas d’alerte majeure et supérieure pour les événements qui touchent le réseau et les applications, et qu’il n’envoie un message qu’à l’équipe d’astreinte seulement quand l’alerte est critique. Opsgenie peut accepter les intégrations de plus de 200 outils de surveillance, de journalisation, d’automatisation, de cloud, de chat, d’ITSM et de déploiement. L’API REST étend les options d’intégration d’Opsgenie.

L’équipe de Bill a mis en place un système de gestion d’événements efficace qui envoie les alertes des événements les plus importants par e-mail à Jira Service Desk. Celui-ci a été configuré pour classer les alertes par ordre de priorité et les attribuer automatiquement. Il pourrait les automatiser, les analyser et les intégrer à d’autres applications comme Jira Email This Issue, Jira Misc Workflow Extensions, Scriptrunner, Elements Copy & Sync. Il manque encore à Bill les pièces clés du puzzle.

Notifier les mises à jour grâce à Status Page

De quel niveau de détail vos utilisateurs ont-ils besoin ? Nous avons déjà vu un cas de notification qui indiquait clairement que c’est la mise à jour que l’entreprise avait elle-même lancée qui était à l’origine du problème et que la résolution serait corrigée ou que le système reviendrait à la précédente version. Ou encore une autre qui disait « Ceci a été identifié comme indisponible. Nous enquêtons » et le message restant identique jusqu’à la résolution du problème.

Tout le monde n’a pas besoin d’être notifié. Grâce à Status Page, vous pouvez vous inscrire aux alertes. Par exemple, si je suis dans l’équipe Marketing au 1er étage, je n’ai pas besoin d’être alerté que l’ascenseur ne fonctionne pas. En revanche, c’est important que je sois notifié si mon site web crashe.

Oui il est fort probable qu’une minorité d’utilisateurs finaux ne tiennent pas compte de vos alertes ou, à l’inverse, essaient de contacter directement le Directeur IT pour obtenir un rapport personnalisé sur la situation. Mais ne vous en faites pas, la plupart de vos utilisateurs prendront en compte vos notifications.

Définissez une politique déterminant le niveau de détail que vous souhaitez partager, la manière de communiquer et à qui. Faites-en sorte qu’elle soit suffisamment générale pour que les gens puissent l’appliquer et donnez des exemples. Ensuite tenez-vous y et vous verrez qu’avec le temps, les retours clients ou utilisateurs s’amélioreront.

Et qu’ont fait Kevin et Bill à ce sujet ? Kevin n’a rien fait puisqu’il avait réglé le problème avant que celui-ci n’affecte le client. Bill a demandé au Support d’envoyer un email à la liste de diffusion, avec une notification sur le statut de l’incident.

Revue des incidents (PIR – Post Incident Review)

Les incidents ont été résolus mais le plus dur reste à venir.

Souvenez-vous. Avant de fermer l’application Opsgenie, Kevin a ouvert l’incident et a cliqué sur le bouton de publication de l’incident. Également connu sous le nom de Post Mortem, Opsgenie génère à la demande un tableau de bord qui se base sur les données recueillies. Ces données seront utiles pour la gestion des problèmes et des changements qui suivent les incidents.
Vous pouvez aussi envoyer ce message par email et extraire certains éléments du rapport. Dans ce PIR, vous avez également accès au nombre de notifications de statut envoyées pour cet incident.

L’analyse post-incident sera utile pour générer des KPI de gestion d’incidents : les « Résolutions proactives » par trimestre et le comparatif « Coût vs. Coût d’évitement ». Par exemple, Kevin sait que son « coût d’évitement » était plus élevé que le « coût » au cours du dernier exercice financier. À ce jour, la tendance est positive. Quant à Bill, il rassemblera les données de Jira et de ses outils de gestion d’incidents en utilisant Excel la semaine précédant la réunion de présentation aux dirigeants de C-Sweet IT.

Reprendre le contrôle

Là où une certaine boisson énergétique vous donne des ailes, Opsgenie vous permet de reprendre le contrôle. Vous filtrez les sollicitations, maîtrisez vos coûts grâce aux informations contextualisées et aux rapports, réalisez de vrais succès sans faire de vague, résolvez des problèmes via la vidéo-conférence avec vos équipes mondiales. Ajoutez maintenant Status page à cela, et vous contrôlez même le message.

Bref, reprenez le contrôle de votre temps, il est précieux. Et prenez le temps d’aller boire une pinte avec votre collègue ou de sortir avec votre moitié.

Contactez dès maintenant l’un de nos consultants ITSM pour vous aider à gagner du temps. En tant que partenaire Solution Platinum d’Atlassian nous avons toute l’expertise pour vous accompagner.