AIOps : Quand l’IA vient en aide aux «Ops »

Avec l’essor des conteneurs et des microservices, les architectures IT sont de plus en plus dynamiques et morcelées. L’IA apparaît comme un outil nécessaire aux Ops pour assurer la gestion et l’efficacité de ces architectures modernes.

L’exploitation des infrastructures informatiques est actuellement dynamitée par le mouvement DevOps, mais aussi l’arrivée des IA dans la production. Ces nouvelles approches signent la fin des silos, mais aussi celle d’une automatisation bien trop statique. Vladimir Dragic, directeur de la transformation digitale chez BMC, explique le changement d’approche apporté par les «AIOps» : « Par le passé, l’exploitation des systèmes informatiques était clairement basée sur la capacité de réagir aux événements qui pouvaient survenir dans l’infrastructure. Aujourd’hui, l’environnement IT est plus complexe avec des architectures multi-cloud, des applications serverless et des volumes de données qui explosent. Cette complexité augmente la pression sur les équipes qui doivent générer cette infrastructure. Un serveur génère en moyenne 100 000 métriques par jour, or des clients comme Orange ou BNP Paribas gèrent jusqu’à 100 000 serveurs. Analyser de tels volumes de données n’est plus faisable par des humains !» L’IA apparait donc comme un outil pour gérer l’explosion des volumes de logs à traiter, mais aussi aller vers une maintenance prédictive des installations IT et réduire les 25% du budget IT engloutis en maintenance.

Le prédictif est déjà une réalité sur la plateforme de monitoring Datadog avec ce que l’éditeur appelle les Monitor de prévision qui exploitent les données historiques d’une métrique pour extrapoler son évolution sur 24 heures ou plus.

La bonne vieille CMDB dépassée par les événements ?

Pour Erwan Paccard, responsable du marketing produit chez AppDynamics, la filiale spécialisée dans l’APM de Cisco, la première étape d’un projet AIOps est de mettre en place un modèle de données unifié, non pas basé sur une CMDB classique, mais un modèle dynamique du système d’information, mis à jour en temps réel au fur et à mesure que sont provisionnés ou décommissionnés des VM, des conteneurs ou des microservices : « Il faut disposer d’un modèle où l’on définit quels sont les liens de dépendances entre les applications. Disposer de cette topologie est extrêmement important car cela va éviter que l’algorithme ne trouve un lien complètement fortuit entre une baisse de performance du site en Europe et un serveur qui est tombé en panne au Japon au même moment.» Cette topologie dynamique des applications va permettre à l’algorithme de parcourir ces arbres de dépendance pour trouver les causes d’une panne ou d’une baisse de performances.

De son côté, Dynatrace cherche à marier le meilleur des deux mondes via un partenariat avec ServiceNow. L’éditeur a récemment annoncé allier le programme ServiceNow Service Graph Connector et alimenter la plateforme ServiceNow de ses données dynamiques. Pour Jérôme Thomas, Sales Engineer chez Dynatrace : « Notre approche est complémentaire à la CMDB de ServiceNow qui a une vocation plus globale. Notre plate-forme possède la capacité de tenir à jour un modèle de dépendance dynamique et découvrir les composantes du système d’information qui échangent des données entre elles et réaliser un monitoring et une mesure de performance de l’ensemble des composants.» L’Intelligence artificielle apporte la capacité d’analyse de cette masse de données et permet aujourd’hui à l’éditeur d’étendre de plus en plus notre monitoring et intégrer notamment de plus en plus d’éléments actifs du réseau, notamment les équipements F5, et étendre notre modèle de dépendances sur événements extérieurs, notamment les équipements réseau actifs, les VPN afin que ces données puissent être analysées par l’Intelligence artificielle.

Les cas d’usage pour l’IA dans l’exploitation des infrastructures

Si aucune IA n’est encore capable de piloter seule une infrastructure informatique, le cas d’usage le plus classique réside dans le repérage des anomalies parmi les milliards d’événements générés par l’infrastructure. Après une phase d’apprentissage, le modèle va repérer le service ou le serveur dont le comportement s’écarte du fonctionnement habituel. Sur la plate-forme New Relic, un modèle de corrélation d’événements vient en complément pour analyser l’incident et définir le «Blast Radius» de l’incident. « Un modèle de réduction de bruit et de corrélation d’incidents va faire converger les événements vers un Master Incident à l’origine de tous les incidents qu’il a causé dans l’infrastructure », explique Gregory Ouillon, CTO EMEA de New Relic. « La solution regroupe tous les incidents corrélés et vient enrichir ce Master Incident de l’information de contexte nécessaire à l’administrateur pour procéder à la remédiation tout en assurant l’explicabilité de ces corrélations.» Avec ces données additionnelles, l’incident peut être poussé vers la plate-forme de ticketing de l’entreprise ou même déclencher un script d’auto-remédiation. Les équipes DevOps les plus matures peuvent écrire des scripts pour dépanner automatiquement un composant au moyen d’un script.

 

Disposer d’une topologie complète des dépendances entre composantes du système d’information permet de mener des analyses détaillées des incidents.