Les coordinateurs ou « Incident Commanders » en anglais (IC) occupent, dans le domaine de la gestion des incidents informatiques, un rôle clé, en particulier dans le contexte DevOps, en faisant face à des enjeux complexes.
Si elle veut être performante, une entreprise doit améliorer son savoir-faire de gestion des incidents et savoir réagir au plus vite en cas de dégradation imprévue des systèmes. En gérant correctement les incidents, il est possible, pour une entreprise, de réduire considérablement le temps d'interruption ou de dégradation de son activité et de limiter leur impact sur ses clients comme sur ses équipes.
La gestion des incidents est une compétence essentielle car la survenue d'incidents est inhérente à la complexité des applications et des systèmes informatiques modernes, quel que soit le niveau d'attention accordé à la résilience des architectures, l’automatisation des déploiements, la qualité du code et des pratiques DevOps, ou encore la compétence des ingénieurs de fiabilité (SRE). De plus, lorsqu’un service se dégrade, cela est souvent dû à des causes plus complexes, nécessitant des actions de remédiation plus délicates à exécuter qu'avant. Se doter d'un "Incident Commander" est une approche pratique qu'un nombre croissant d'entreprises adopte pour faire face à cette complexité.
En cas d'incident, le rôle d'IC est souvent endossé par une personne spécifiquement formée à cela et qui se trouve en première position pour y répondre, qu’il s'agisse d'un opérationnel, d'un SRE, d'un développeur ou d'un responsable produit. Selon les compétences et la durée de l’incident, le rôle peut être réattribué si nécessaire et les incidents les plus critiques assignés à un groupe d’ICs spécialisés et joignables en permanence.
Les 5 bonnes pratiques suivantes peuvent aider à élever davantage la stature du "Incident Commander" pour qu’il opère le plus efficacement possible la gestion d'incident.
1Miser sur la coordination
Sous haute pression, les incidents sont chaotiques, mouvants, complexes et souvent imprévisibles. L’information peut s'avérer rare et peu fiable ; les équipes peuvent également être submergées par un flux trop important d’évènements, sans cohérence ni causalité. Dans ce contexte, un IC qui estime être seul "décideur" ou détenteur des réponses est souvent condamné à l'échec ou à l'augmentation des risques encourus, contribuant à amplifier plutôt qu'à contenir le sentiment de panique.
À l’inverse, celui qui mise sur la coordination s'avère généralement plus performant. Il recrute expressément des experts possédant les bonnes connaissances et compétences pour établir un plan d’action efficace. Il fait aussi en sorte que l’ensemble des collaborateurs aie accès aux moyens et informations nécessaires pour investiguer et mener les actions. Il atténue les tensions et favorise une communication claire. Dans son rôle de coordinateur, il garantit le calme pendant la tempête, et devient une sorte de barrière de protection contre le stress et la panique qui mènent souvent à des réactions trop rapides.
En pratique, un IC doit savoir formuler les bonnes questions au lieu de vouloir leur apporter des réponses, s’assurer que les idées constructives ne sont pas laissées de côté, remettre en question leur pertinence, identifier et contenir les phénomènes d’entrainement et les actions précipitées, et orienter l’analyse et la remédiation tout en la laissant aux experts.
2Contrôler le flot d’émotions, d’informations et d’analyse
Les incidents sont sources de stress, de panique et de réactions non réfléchies. Les IC ont pour mission d'identifier ces états et d’aider les collaborateurs à en sortir. Pour cela, ils doivent porter une attention particulière aux émotions qui surviennent et ramener rapidement les collaborateurs trop réactifs à un état d’esprit calme.
Ils doivent aussi savoir gérer les informations et comprendre les parties prenantes : qui est dans la pièce, quelles informations sont connues ou manquantes ? L'IC doit écouter, filtrer et agir sur l’essentiel. Et décider, par exemple, s'il faut faire appel à une autre équipe, ou solliciter l’intervention d’un spécialiste métier pour résoudre un problème spécifique. Les IC jouent souvent ce rôle d’intermédiaire, en partageant les bonnes informations avec les bonnes personnes, faisant ainsi émerger les solutions plus rapidement.
Pour finir, il faut noter que les incidents les moins courants sont souvent les plus problématiques et les plus formateurs. Ils représentent une opportunité en temps réel pour les IC de comprendre que leur représentation mentale d’un système diffère de la réalité ou de celles de leurs collègues. Cela leur permet d'enrichir leur expérience et leurs intuitions.
3Connaître le contexte des incidents sur le bout des doigts
Maîtriser le contexte est essentiel dans le rôle de coordination des IC : il s'agit d'une capacité à relier des informations entre elles, identifier des ressources utiles et repérer de possibles lacunes dans les connaissances et compétences de l’équipe. Cela s'illustre dans trois domaines prépondérants.
Premièrement, comprendre les systèmes techniques et humains de l’entreprise, à s'avoir l'architecture générale des systèmes, et la façon dont sont intégrés les différents éléments. D’autre part la façon dont sont organisés et définis les rôles et les équipes, et le canal de contact entre les différents collaborateurs et le choix de ceux qui sont impliqués en fonction de la situation.
Ensuite, connaître le processus de gestion des incidents de l’entreprise. Sans forcément mémoriser chaque élément de procédure en détail, un IC expérimenté doit avoir une forme de mémoire réflexe du cycle de gestion des incidents. Il peut aussi, si nécessaire, s'appuyer sur la documentation existante sur tous les processus et procédures.
Enfin, il s'agit de comprendre les priorités, la culture et les méthodes de travail de l’entreprise : l’IC doit privilégier des solutions pratiques, en respectant les habitudes et les capacités de l’entreprise. Plus il s’éloigne de ces capacités intrinsèques, plus l'élaboration et l'exécution d'une intervention sera difficile.
4Assurer formation et apprentissage continus, identifier les talents et les prédispositions
Personne ne naît "Incident Commander", mais il est possible pour chacun d'entre eux de s'améliorer avec une formation adéquate et un apprentissage progressif en situation d’incident. On peut aussi détecter et encourager ceux qui ont des prédispositions pour cela, parce qu’ils assimilent et retiennent l’information de façon holistique, ou parce qu’ils font preuve d'une grande stabilité émotionnelle pour lutter contre la panique et rester efficace en situation de stress.
Certains signes sont révélateurs de ce type de potentiel, comme l’aisance et la maîtrise technique : un IC doit posséder un vocabulaire technique étendu pour comprendre la teneur des conversations, et pour pouvoir jauger ses connaissances et savoir 'ce qu’il ne sait pas’. La stabilité et le détachement émotionnel, préalables à la gestion du flot des émotions d’une équipe, sont tout aussi importants. Enfin, les IC doivent faire preuve d'un enthousiasme naturel pour le poste et les défis à relever, être motivés par la réussite et ne pas se focaliser sur l'éventualité d’un échec.
5Rien de tel que la pratique pour se perfectionner
La meilleure manière pour les IC débutants d'affiner leurs compétences et de gagner en assurance reste bel et bien l’entraînement. Plus celui-ci est réaliste, plus l’IC peut s'améliorer et évaluer sa capacité à travailler sous pression.
Les entreprises qui réussissent ont tendance à valoriser le rôle des IC en récompensant ceux qui ont mené des interventions réussies. Cela passe par la mise en place, au sein des équipes de développement, d'une culture du soutien qui ne fait pas peser la faute sur un seul individu et ne pénalise pas les IC qui ont pris une décision difficile. Ces entreprises effectuent également des revues rétrospectives d'incidents, pour poursuivre le processus d'apprentissage de leurs équipes et s'améliorer constamment.
Une bonne gestion des incidents nécessite plusieurs ingrédients spécifiques, l'un des plus importants étant de disposer d’un réservoir d'IC confiants et bien formés. De plus, il est important pour les entreprises de reconnaître le rôle stratégique de l’IC et de le valoriser, tout en investissant dans leur formation et en reconnaissant les plus belles réussites.
Par Greg Ouillon, EMEA CTO chez New Relic