Haut de page

Une approche moderne de la gestion des incidents IT (Incident Management)


Publié par
Erin Collins

22 janvier 2020

La gestion d’incidents désigne tous les services qu’une organisation met en place pour réagir aux événements imprévus et aux interruptions de service IT. La gravité des incidents peut varier considérablement, allant d’un incident important comme une panne globale de service web, à une erreur isolée subie par un petit nombre d’utilisateurs, voire un seul utilisateur.

Les incidents rendent les utilisateurs frustrés, bloqués, isolés ou improductifs. Et cela se traduit le plus souvent par des commentaires dégageant une grande insatisfaction vis à vis des Services IT ou du Département Informatique. C’est pourquoi, il est important de ne pas négliger ce service aux utilisateurs finaux.

En 2020, l’ITSM ce n’est pas simplement des process pour gérer les pannes. Pour pouvoir moderniser la gestion d’incidents, il faut pouvoir mettre en place tout cela:

  • un ensemble de matrices complexes pour gérer les priorités et les niveaux de réponse, ce pour différents services rendus à différents types de clients ou branches d’activité.
  • une communication adaptée à chaque partie prenante
  • des environnements de production et de non-production
  • des escalades verticales et latérales
  • de la collaboration efficace au sein d’équipes centralisées et dispatchées sur plusieurs sites
  • la capacité à gérer des incidents majeurs
  • l’amélioration continue

Telles sont les attentes et la réalité des équipes en charge des technologies de l’information et des communications (TIC) aujourd’hui. Et oui, pendant que nous étions concentrés, tête baissée, à réparer les pannes, la gestion des incidents est devenue une Pratique ITSM à part entière.

Dans ce contexte, les équipes ont besoin de s’appuyer sur des méthodes rigoureuses afin de prioriser les incidents et de pouvoir restaurer le service rapidement, dans le respect de ses engagements de service. Selon Gartner, les interruptions de service coûtent plus de 300 000 $ l’heure aux organisations. Pour certains services web, ce chiffre peut être encore bien plus élevé, et les outils ITSM utilisés doivent donc être capables d’identifier et d’alerter les équipes de plusieurs façons, selon plusieurs critères, et le plus rapidement possible.

Le processus de Gestion d’Incidents (Incident Management)

La gestion des incidents n’est pas nécessairement un processus lourd et contraignant. Beaucoup pensent qu’ITIL complexifie ce processus (à tort selon moi), mais il dépend finalement plus de l’organisation de l’entreprise et de sa culture. Cependant, il est vrai que certaines caractéristiques doivent être présentes pour que la pratique apporte une valeur ajoutée à l’entreprise.

Point encore plus important pour que la Gestion d’Incidents révèle tout son potentiel : les rythmes et modèles de catégorisation et de priorisation, les niveaux de service et la communication doivent être définis en collaboration avec les parties prenantes ou les clients lors de la conception ou de l’introduction du service.

Identifier et consigner

Un incident peut provenir de n’importe où : un employé, un client, un fournisseur, des systèmes de surveillance. Quelle que soit la source, les deux premières étapes sont simples : l’incident est identifié, puis l’incident est enregistré. Ces incidents (en fait les tickets relatifs à ces Incidents) comprennent généralement :

  • Le nom de la personne qui a signalé l’incident
  • La date et l’heure de la déclaration de l’incident
  • Une description de l’incident (ce qui est en panne ou ne fonctionne pas correctement)
  • Un numéro d’identification unique attribué à l’incident, pour le suivi

Catégoriser et prioriser

L’affectation d’une catégorie (et d’une sous-catégorie si besoin) logique et intuitive à chaque incident vous aidera à analyser vos données par la suite. Vous pourrez déceler des tendances et des schémas, et cela vous permettra de gérer plus efficacement les problèmes, mais aussi de prévenir de futurs incidents similaires.

Chaque incident doit également être classé par ordre de priorité et cela peut être fait par le biais de l’automatisation dans la plupart des cas. Cela commence par la catégorisation dont on a parlé ci-dessus, puis par l’évaluation de l’impact sur l’activité de l’entreprise et sur le nombre d’utilisateurs, ainsi que les SLA applicables et les répercussions possibles de l’incident sur les finances, la sécurité, la conformité et la réputation de l’entreprise. Certains outils peuvent même rechercher automatiquement les modèles d’incidents et y répondre avant même que les utilisateurs ne s’en rendent compte.

Répondre

  • Diagnostic initial : idéalement il faut que votre équipe de Support niveau 1 puisse voir un incident, du diagnostic jusqu’à la fermeture. Mais si elle ne peut pas, la prochaine étape consistera alors à renseigner toutes les informations pertinentes à l’analyse de l’incident dans le ticket et à les transmettre à l’équipe de Support du niveau 2.

L’essaimage, technique utilisée en DevOps, est reprise aussi dans les pratiques ITSM. Dans ce contexte, elle combine l’escalade, l’enquête, le diagnostic et la résolution. Elle est appropriée aux incidents majeurs, comme aux non majeurs.

  • Escalader, Investiguer, Diagnostiquer : Escalade verticale ou latérale ? Vous pouvez avoir besoin des deux pour les incidents majeurs. L’escalade latérale, qu’elle soit simple ou multiple, peut être la seule façon d’aborder un problème. Parfois, les équipes font appel à des ressources externes ou à d’autres membres du service pour obtenir de l’aide pour la résolution du problème.
  • Communiquer : Les parties prenantes internes et externes sont notifiées des mises à jour via les moyens les mieux adaptés selon le destinataire : SMS, WhatsApp, Teams, Slack, autres textes/chats, messagerie automatique, e-mail, page web, one-to-one.
  • Résolution et récupération : Cela concerne toutes les mesures nécessaires à la résolution de l’incident. En cas d’incident majeur, la résolution implique seulement le temps nécessaire au rétablissement du service. Certains correctifs (comme les correctifs de bugs) peuvent nécessiter des tests et un déploiement dans un second temps après la résolution du service.
  • Fermeture : Elle peut prendre plusieurs formes selon le type d’incident. Pour les problèmes simples, la clôture peut suivre automatiquement la résolution. Pour les incidents majeurs, la clôture est faite après la réalisation d’un rapport post-action pour compléter l’événement.

Les outils de gestion d’incidents IT

La gestion d’incidents ne repose pas sur un outil, mais sur la bonne combinaison d’outils, de pratiques et de personnes. Voici les différents types d’outils que l’on rencontre la plupart du temps :

  • Suivi des incidents : Chaque incident doit être suivi et documenté afin que vous puissiez identifier les tendances et faire des comparaisons dans le temps. Si vous intégrez un portail client et des outils de gestion d’événements et d’actifs avec Jira Service Desk, cela vous permettra d’éliminer de nombreuses tâches.
  • Messagerie instantanée : La communication écrite en temps réel apporte beaucoup de valeur quand il s’agit de diagnostiquer et résoudre les incidents en équipe. Il en est de même pour un outil permettant aux utilisateurs finaux de signaler eux-mêmes les problèmes. Une fois intégrés à votre boîte à outils ITSM, ces fonctionnalités vous fourniront un ensemble de données précieux pour l’analyse des réponses.
  • Chat vidéo : Cela complète la messagerie instantanée pour la plupart des incidents. Quand les équipes sont dispatchées, un appel vidéo d’équipe permet d’échanger sur les premières analyses et d’élaborer une stratégie de réponse ensemble.
  • Système d’alerte : Un outil tel qu’OpsGenie s’intègre à votre système de monitoring et gère les rotations, les escalades et les astreintes.
  • Documentation : Un outil tel que Confluence peut sauvegarder les documents liés aux différents états des incidents, ainsi que le contenu de vos post-mortems. L’intégration de Confluence avec Jira Service Desk structure votre approche Self-service et Auto-assistance.
  • Communication autour des incidents : Informer les parties prenantes internes et les clients du statut de l’incident est essentiel. Vous pouvez le faire avec un outil comme Status page qui permet de notifier tout le monde automatiquement en cas d’incident majeur, car les notifications et les workflows sont intégrés.

 

L’automatisation, l’adoption des pratiques DevOps et la reconnaissance de la Gestion d’Incidents en tant que pratique ITSM à part entière, interconnectée aux autres, sont autant de moyens de garantir un process de gestion d’Incidents simple et efficace. Un process Lean ! Une bonne gestion d’incidents permet de construire une base d’information précieuse et utiles à de nombreuses autres pratiques IT/TIC. Si vous voulez en savoir plus sur la gestion des Incidents ou des conseils pour vos propres process, contactez l’un de nos consultants experts en ITSM dès aujourd’hui.