Le monitoring des ressources Cloud en mode secours

Introduction #

Le monitoring des ressources est un composant important pour assurer la résilience et la continuité des services dans l’espace de PRA.

Lors de la bascule en mode secours dans le Cloud, il est nécessaire de surveiller en temps réel les ressources (serveurs, disques, Gateway, …) pour détecter les anomalies et réagir rapidement.

Cet article explore la solution de monitoring CloudEye, native dans le Cloud T Cloud Public (anciennement Open Telekom Cloud), en détaillant son fonctionnement et son importance dans un contexte de bascule en mode secours.

Surveillance en temps Réel des Ressources : CloudEye #

CloudEye est un service natif du Cloud T Cloud Public, de surveillance avancée qui offre une vue complète et en temps réel de l’état et de la performance des diverses ressources cloud. Voici une exploration détaillée des fonctionnalités de CloudEye pour chaque type de ressource :

Instances de Serveurs #

Utilisation du CPU : CloudEye surveille en continu l’utilisation du CPU des instances de serveur, fournissant des métriques détaillées sur la charge processeur. Cela inclut :

Pourcentage d’Utilisation : Suivi du pourcentage d’utilisation du CPU par rapport à la capacité totale. Les pics ou les charges prolongées peuvent indiquer une surcharge ou une application inefficace.
Temps d’Attente du CPU : Mesure du temps pendant lequel les processus attendent que le CPU soit disponible, ce qui peut signaler des problèmes de performance.

Utilisation de la Mémoire : Surveillance de l’utilisation de la RAM

Mémoire Totale et Utilisée : Quantité de mémoire totale et mémoire utilisée, ainsi que la mémoire disponible.
Fuites de Mémoire : Détection de l’utilisation croissante de la mémoire qui pourrait indiquer des fuites de mémoire dans les applications.

Performance des Disques : Mesure des performances des volumes de stockage attachés

IOPS (Input/Output Operations Per Second) : Nombre d’opérations de lecture/écriture par seconde. Une diminution des IOPS peut indiquer une surcharge ou un goulet d’étranglement.
Latence des Disques : Temps de réponse pour les opérations de lecture/écriture. Une latence élevée peut affecter la performance des applications.

Ressources Réseau : Surveillance de l’utilisation des interfaces réseau

Débit Réseau : Quantité de données entrant et sortant des instances, mesurée en bits par seconde (bps). Les variations peuvent refléter des problèmes de réseau ou des changements dans le trafic.
Erreurs Réseau : Suivi des erreurs de transmission et des paquets perdus, indiquant des problèmes potentiels avec la connectivité réseau.

Stockage S3
#

Volumes de Stockage : CloudEye surveille les volumes de stockage attachés aux instances

Utilisation de l’Espace : Quantité d’espace utilisé par rapport à la capacité totale du volume, permettant de détecter des besoins d’expansion ou des risques de saturation.
Performance des Volumes : Analyse des temps de réponse et des IOPS pour évaluer l’efficacité du stockage et identifier les goulets d’étranglement.

Systèmes de Fichiers : Surveillance de l’intégrité et des performances des systèmes de fichiers montés

Espace Utilisé : Suivi de la quantité d’espace utilisé et disponible sur les systèmes de fichiers montés.
Erreurs de Fichiers : Détection des erreurs de lecture/écriture et des problèmes de corruption de fichiers.

Réseau #

Bande Passante : Surveillance de la quantité de données transférées à travers les interfaces réseau :

Débit Total : Mesure du débit total entrant et sortant pour chaque interface réseau, offrant une vue sur la quantité de données échangées.
Utilisation du Réseau : Analyse de la bande passante utilisée par rapport à la capacité totale, identifiant les périodes de surcharge ou d’utilisation excessive.

Latence Réseau : Suivi des temps de réponse des connexions réseau

Temps de Réponse : Mesure du temps nécessaire pour qu’une requête voyage entre deux points sur le réseau, crucial pour les applications sensibles à la latence.
Délais de Réponse : Suivi des délais de réponse pour les services et les applications, permettant d’identifier les problèmes de connectivité.

Erreurs Réseau : Surveillance des erreurs de transmission

Paquets Perdus : Nombre de paquets de données perdus pendant la transmission, ce qui peut indiquer des problèmes de connectivité ou de performance.
Erreurs de Transmission : Mesure des erreurs dans les données transmises, indiquant des problèmes potentiels avec les interfaces réseau.

Importance dans un contexte de bascule en mode secours #

Dans le cadre d’un Plan de Reprise d’Activité (PRA), la bascule en mode secours est un processus crucial pour garantir la continuité des services.

Le monitoring des ressources joue un rôle essentiel à chaque étape de ce processus :

Détection Proactive des Problèmes : La surveillance en temps réel des ressources permet aux équipes IT de repérer les problèmes potentiels avant qu’ils ne provoquent une interruption de service. Cette détection précoce facilite une réponse rapide et permet d’initier des actions correctives immédiatement, ce qui contribue à réduire le temps d’indisponibilité et à maintenir la continuité des opérations en mode secours.
Analyse Post-Bascule : Après une bascule en mode secours, il est impératif d’examiner en détail les données recueillies par CloudEye. Cette analyse permet de diagnostiquer les problèmes éventuels en comparant les tendances de performance aux activités enregistrées. Cela aide à identifier tout signe de compromission ou d’anomalie, assurant ainsi que les systèmes restaurés sont sécurisés et fonctionnent correctement.
Validation de la Bascule : CloudEye joue également un rôle crucial dans la validation de la bascule en mode secours. Il permet de vérifier que les ressources en mode secours fonctionnent comme prévu en surveillant les métriques de performance et en analysant les journaux d’activité. Cette validation garantit que les services sont pleinement opérationnels et que les données sont cohérentes et intégrales après la transition.

Conclusion #

Le monitoring des serveurs dans un espace de PRA est crucial pour assurer une reprise rapide et efficace après un incident.

Les solutions comme CloudEye offre des outils puissants pour surveiller les performances, gérer les alertes, et tracer les actions menées.

En utilisant cette solution en mode bascule, vous renforcez votre capacité à détecter, analyser et réagir aux incidents, assurant ainsi une disponibilité ininterrompue des services Cloud, lors d’une bascule en mode secours.

PRA, Sécurité

Prise de contact Nuabee

65, rue Hénon
69004 Lyon
France

+33 (0)4 28 29 79 01
sales@nuabee.fr