intelligence-artificielle-cle-pilotage-infrastructures-informatiques

Comment l’intelligence artificielle devient clé dans le pilotage des infrastructures informatiques

Introduction

Au sein des grandes organisations, c’est un véritable défi pour les équipes réseau (NOC) et opérations de digérer un volume exponentiel de signaux (métriques, logs, traces, événements, changements), tout en gardant une vue fiable des actifs réellement présents sur le réseau. L’intelligence artificielle — au sens large des capacités AIOps et des assistants génératifs — s’impose parce qu’elle repère des anomalies sans seuils fixes, corrèle les symptômes à l’échelle d’un service, et remet le changement au cœur du diagnostic (la majorité des incidents y sont liés). Cela renforce la fiabilité des opérations mais permet également de contribuer à la cybersécurité. Cet article dresse un panorama des solutions existantes et des tendances de l’IA dans la gestion des infrastructures.

NOC & observabilité : de la détection à la cause probable

Dans un NOC moderne, l’IA n’est pas seulement un détecteur : c’est un contextualiseur. Côté triage, PagerDuty AIOps met en avant la « Probable Origin » des défaillances pour orienter immédiatement les équipes vers le service le plus susceptible d’être à l’origine d’un incident ; la plateforme corrèle aussi les incidents avec les changements récents pour faire émerger les suspects probables. De son côté, BigPanda enrichit les incidents avec les Root Cause Changes (RCC) en temps réel, à partir des flux CI/CD et ITSM, afin d’éviter les fouilles manuelles dans des centaines d’events de change. Ces approches réduisent la latence cognitive du triage et recentrent l’investigation sur « ce qui a changé ». [1]

Des moteurs d’observabilité tels que Datadog Watchdog automatisent la détection d’écarts par rapport aux comportements historiques, tandis que Dynatrace Davis regroupe les événements qui partagent la même cause en un « problème » unique grâce à la topologie et aux transactions. Résultat : moins de bruit, une recherche de cause accélérée et des pistes de remédiation plus ciblées. [2]

Assistants d’exploitation : synthèses d’incidents et post-mortems

Les assistants génératifs s’insèrent désormais dans les outils ITSM et ChatOps. ServiceNow Now Assist peut générer des résumés d’incident directement dans l’interface (ou via une console d’administration dédiée), ce qui permet à une astreinte d’entrer dans le contexte en quelques secondes. Atlassian Intelligence offre des fonctions analogues dans Jira Service Management, y compris l’assistance à la rédaction des post-incident reviews (PIR). Ces capacités standardisent la qualité des comptes rendus et accélèrent les transferts entre équipes. [3]

Asset discovery : inventaire continu des terminaux IT/IoT/OT

Sans inventaire fiable, ni corrélation ni remédiation ne tiennent. Microsoft Defender for Endpoint offre deux modes complémentaires : Basic (découverte passive basée sur l’observation du trafic par les endpoints embarqués, sans générer de trafic) et Standard (sondes actives pour enrichir la découverte et la classification). En pratique, on commence en passif pour cartographier, puis on élargit en actif sur des segments pilotes. [4]

Pour affiner l’identification, Cisco AI Endpoint Analytics agrège de multiples télémétries réseau et maintien des règles de profilage régulièrement mises à jour afin de classer les terminaux (type, fabricant, modèle, OS), y compris les IoT. Enfin, des plateformes spécialisées comme Armis s’appuient sur un Asset/Behavior Intelligence alimenté par le ML pour comparer chaque appareil à un « known good » et signaler les écarts de configuration ou de comportement. Sur des parcs mixtes IT/IoT/OT, ce trio découverte-profilage-intelligence lève de nombreux angles morts. [5]

Architecture d’exploitation : corréler signaux, topologie et changements

Une architecture cible assemble quatre flux :

  1. observabilité (métriques, traces, logs)
  2. événements d’outils APM/NPM/Sec
  3. changements (CI/CD, ITSM)
  4. inventaire/CMDB issu de la découverte.

Le moteur AIOps corrèle au niveau service grâce à la topologie et aux transactions (approche Davis), puis remonte les changements suspects au cœur des incidents (PagerDuty/BigPanda). Cette chaîne ne remplace pas la gouvernance : on pilote par SLO et on alerte sur le burn-rate de l’erreur-budget, une pratique recommandée par le SRE Workbook et reprise par les grands éditeurs de monitoring/observabilité. [6]

Gouvernance & conformité (UE/FR) : cadrer l’usage de l’IA

Côté réglementation européenne, l’AI Act est entré en vigueur le 1ᵉʳ août 2024. Des échéances intermédiaires s’appliquent : interdictions et “AI literacy” depuis le 2 février 2025, obligations pour les modèles d’IA à usage général (GPAI) depuis le 2 août 2025, et application générale le 2 août 2026, avec une extension jusqu’au 2 août 2027 pour certains systèmes embarqués à haut risque. Pour des équipes OPS/NOC, cela implique de tenir un registre des cas d’usage, de documenter les données traitées (y compris prompts et logs) et de prévoir des contrôles de sécurité proportionnés. [7]

En France, la CNIL a publié en 2024 une nouvelle édition de son guide de la sécurité des données personnelles comprenant une fiche dédiée à l’IA ; ce guide aide à cadrer la journalisation, la minimisation et la protection des données opérationnelles. L’ANSSI a, de son côté, émis des recommandations de sécurité pour les systèmes d’IA générative, utiles pour déployer des copilotes dans un cadre d’entreprise. Pour une approche vendor-agnostic de la gestion des risques, le NIST AI RMF 1.0 fournit un cadre en quatre fonctions (« Govern, Map, Measure, Manage »), accompagné d’un profil spécifique à la générative. [8]

Bonnes pratiques de mise en œuvre

Commencer petit, sur des actions mesurables. Sélectionnez deux ou trois services critiques, activez la détection d’anomalies et la corrélation, branchez vos flux de changements, puis suivez vos KPIs : bruit d’alertes, MTTA, MTTR, et couverture d’inventaire. Mettez en place des alertes multi-fenêtres/multi-burn-rates pour vous alerter vite sans déclencher de faux positifs en continu ; c’est aujourd’hui la référence SRE, et des guides concrets existent pour l’implémenter dans vos outils. Enfin, industrialisez la synthèse d’incidents et la rédaction de PIR dans votre ITSM, avec journalisation et contrôles d’accès. [9]

En résumé

L’IA opérationnelle apporte trois gains clés : détecter tôt les anomalies et corréler intelligemment les symptômes (Datadog, Dynatrace) ; réduire le bruit et replacer le changement au cœur du triage (PagerDuty, BigPanda) ; fiabiliser l’inventaire des actifs IT/IoT/OT en continu (Microsoft Defender, Cisco AIEA, Armis). Le tout s’inscrit dans une gouvernance rigoureuse : échéances de l’AI Act (2025–2027), bonnes pratiques CNIL/ANSSI, et gestion des risques via le NIST AI RMF 1.0. En procédant par paliers (services pilotes, KPIs, SLOs et burn-rate), vous transformez le NOC en centre d’opérations proactif et traçable.

Références

[1] docs.datadoghq.com/fr/watchdog

[2] https://support.pagerduty.com/main/docs/probable-origin

[3] https://www.servicenow.com/docs/bundle/zurich-it-service-management/page/product/now-assist-itsm/task/summarize-incident-now-assist.html

[4] https://learn.microsoft.com/en-us/defender-endpoint/device-discovery-faq

[5] https://www.ciscolive.com/c/dam/r/ciscolive/global-event/docs/2022/pdf/BRKENS-2850.pdf

[6] https://docs.dynatrace.com/docs/discover-dynatrace/platform/davis-ai/root-cause-analysis/concepts

[7] https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai

[8] https://www.cnil.fr/sites/cnil/files/2024-03/cnil_guide_securite_personnelle_2024.pdf

[9] https://support.pagerduty.com/main/docs/pagerduty-aiops-quickstart-guide

Actualites Exiptel - cybersecurité