Tribunes par thématique IT Service Management L’observabilité et la télémétrie

L’observabilité et la télémétrie

Par

27/06/2023

« A tout problème il y a une solution ». Dans l’IT également, mais le problème est souvent lié à de nombreux facteurs, souvent avec des interconnexions entre eux qui, avec le temps et les différentes couches technologiques et d’organisation forment un casse-tête pour dénouer les informations.

Lorsqu’il s’agit de monitorer les infrastructures d’aujourd’hui, alors que celles-ci sont de plus en plus complexes et hybrides, avec une ouverture vers l’extérieur et de nouveaux assets très différents, la tâche est ardue.

Dans ces environnements de plus en plus dynamiques et hétérogènes (micro services, conteneurs, IoT, Cloud…) la recherche des causes réelles d’un incident est de plus en plus complexe.

De plus, l’évolution des factory logiciel et des chaines CI/CD, et l’approche DevOps accroit l’exigence d’agilité des plateformes de gestion des opérations. La transparence des interactions est clé. On parle ici d’Ops as Code.

Il est donc important d’évoluer d’une approche de monitoring classique (on ne surveille que ce que l’on connait) vers une approche d’observabilité (on collecte l’ensemble des données disponibles).

On considéra comme sources de données classiques :

L’ensemble des événements et métriques issus des solutions de monitoring
L’ensemble des journaux de log
La topologie issue de la découverte technique et du CMS (configuration management system)

Mais il faut aussi s’attacher à pouvoir intégrer de nouvelles sources de données comme par exemple celle issues d’open telemetry pour les applications, de la télémétrie réseau ou de tout autre API.

Pour cela il est nécessaire de mettre à disposition une dataplateforme avec quelques composants essentiels tels que :

Un service d’ingestion de la donnée robuste et résilient afin de garantir la délivrance.
Un service de normalisation, d’enrichissement et d’agrégation permettant de facilement manipuler les données brutes
Un service d’API ouverte pour la définition de jeux de données additionnels
Un système de base de données performant permettant d’injecter de gros volumes de données mais aussi de les manipuler et consommer en continu

Une fois ces données collectées, une couche d’IA est nécessaire pour pouvoir traiter toutes les informations afin de trouver les sources réelles du problème.

Modèles d’apprentissage
Détection unknown
Analyse comportementale

Un système de base de données supportant nativement des fonctions d’analyse (régression linéaire ou logistique, Naive Bayes, arbre de décision …) est un plus réel afin de faciliter la définition de modèles IA.

Enfin il est nécessaire de bien réfléchir aux cas d’usages et aux fonctions de consommation de l’information souhaités

La fourniture de tableaux de bords au service des métiers
La fourniture d’une interface de gestion des opérations permettant d’améliorer l’efficacité opérationnelle, connectée aux outils d’automatisation et d’ITSM
Supporterla discipline SRE (SiteReliability Engineering)
Agir sur l’information en automatisant des fonctions de diagnostic et remédiation.

En conclusion on perçoit dans l’observabilité et le monitoring plus largement plusieurs points d’attention à venir :

L'application de la télémétrie ouverte (Open Telemetry) et des technologies connexes s'accélérera pour améliorer l'observabilité, notamment dans le cas des architectures conteneurisées. Cela permet de mieux gérer la mise à l’échelle des micro-services, mais aussi d’être plus réactif dans la livraison des mises à jour en fonction des composants peu performants ou en erreur
La nécessité d’assurer la collection des données du réseau (métrologie, état des services) dans des architecture hybrides afin de mieux anticiper les ruptures ou dégradations de services.
Proposer des interfaces de visualisation supportant les activités SRE (Software Reverse Engineering) afin de facilement comprendre le comportement des applications.
La capacité à découvrir et modéliser l'ensemble des composants des services métiers. Cette capacité est essentielle pour analyser et mesurer l’impact d’un composant sur une application ou un service métier.

Par Quentin de Sainte Marie, Consultant Avant-vente ITOM Senior OpenText

Derniers Articles de fond

Dernières Actualités

Dernières Expériences