Rechercher

Chapitre 33. Interprétation des codes de retour OCF des agents de ressources

download PDF

Les agents de ressources Pacemaker sont conformes à l'API de l'agent de ressources de l'Open Cluster Framework (OCF). Les tableaux suivants décrivent les codes de retour OCF et leur interprétation par Pacemaker.

La première chose que fait le cluster lorsqu'un agent renvoie un code est de vérifier le code de retour par rapport au résultat attendu. Si le résultat ne correspond pas à la valeur attendue, l'opération est considérée comme ayant échoué et une action de récupération est lancée.

Pour toute invocation, les agents de ressources doivent sortir avec un code de retour défini qui informe l'appelant du résultat de l'action invoquée.

Il existe trois types de reprise sur panne, décrits dans le tableau suivant.

Tableau 33.1. Types de récupération effectués par le cluster
TypeDescriptionMesures prises par le groupe

doux

Une erreur transitoire s'est produite.

Redémarrer la ressource ou la déplacer vers un nouvel emplacement .

dur

Une erreur non transitoire qui peut être spécifique au nœud actuel s'est produite.

Déplacer la ressource ailleurs et empêcher qu'elle soit réessayée sur le nœud actuel.

mortel

Une erreur non transitoire commune à tous les nœuds de la grappe s'est produite (par exemple, une mauvaise configuration a été spécifiée).

Arrêter la ressource et empêcher qu'elle soit démarrée sur n'importe quel nœud du cluster.

Le tableau suivant présente les codes de retour OCF et le type de récupération que le cluster entreprend lorsqu'un code d'échec est reçu. Notez que même les actions qui renvoient 0 (alias OCF OCF_SUCCESS) peuvent être considérées comme ayant échoué si 0 n'était pas la valeur de retour attendue.

Tableau 33.2. Codes de retour de l'OCF
Code de retourLabel OCFDescription

0

OCF_SUCCESS

* L'action s'est terminée avec succès. Il s'agit du code de retour attendu pour toute commande de démarrage, d'arrêt, de promotion et de rétrogradation réussie.

* Type si inattendu : doux

1

OCF_ERR_GENERIC

* L'action a renvoyé une erreur générique.

* Type : doux

* Le gestionnaire de ressources tentera de récupérer la ressource ou de la déplacer vers un nouvel emplacement.

2

OCF_ERR_ARGS

* La configuration de la ressource n'est pas valide sur cette machine. Par exemple, elle fait référence à un emplacement introuvable sur le nœud.

* Type : dur

* Le gestionnaire de ressources déplacera la ressource ailleurs et l'empêchera d'être réessayée sur le nœud actuel

3

OCF_ERR_UNIMPLEMENTED

* L'action demandée n'est pas mise en œuvre.

* Type : dur

4

OCF_ERR_PERM

* L'agent de ressource n'a pas les privilèges suffisants pour accomplir la tâche. Cela peut être dû, par exemple, au fait que l'agent n'est pas en mesure d'ouvrir un certain fichier, d'écouter sur un socket spécifique ou d'écrire dans un répertoire.

* Type : dur

* Sauf configuration spécifique contraire, le gestionnaire de ressources tentera de récupérer une ressource qui a échoué avec cette erreur en redémarrant la ressource sur un nœud différent (où le problème de permission peut ne pas exister).

5

OCF_ERR_INSTALLED

* Un composant requis est manquant sur le nœud où l'action a été exécutée. Cela peut être dû au fait qu'un binaire requis n'est pas exécutable ou qu'un fichier de configuration essentiel est illisible.

* Type : dur

* Sauf configuration spécifique contraire, le gestionnaire de ressources tentera de récupérer une ressource qui a échoué avec cette erreur en redémarrant la ressource sur un nœud différent (où les fichiers ou les binaires requis peuvent être présents).

6

OCF_ERR_CONFIGURED

* La configuration de la ressource sur le nœud local n'est pas valide.

* Type : fatal

* Lorsque ce code est renvoyé, Pacemaker empêchera l'exécution de la ressource sur tout nœud du cluster, même si la configuration du service est valide sur un autre nœud.

7

OCF_NOT_RUNNING

* La ressource est arrêtée en toute sécurité. Cela signifie que la ressource s'est arrêtée de manière élégante ou qu'elle n'a jamais été démarrée.

* Type si inattendu : doux

* Le cluster n'essaiera pas d'arrêter une ressource qui renvoie ce message pour quelque action que ce soit.

8

OCF_RUNNING_PROMOTED

* La ressource est exécutée dans un rôle promu.

* Type si inattendu : doux

9

OCF_FAILED_PROMOTED

* La ressource est (ou pourrait être) dans un rôle promu mais a échoué.

* Type : doux

* La ressource sera rétrogradée, arrêtée, puis reprise (et éventuellement promue).

190

 

* Il s'avère que le service est correctement actif, mais dans un état tel que de futures défaillances sont plus probables.

191

 

* L'agent de ressources prend en charge les rôles et le service est considéré comme correctement actif dans le rôle promu, mais dans un état tel que les défaillances futures sont plus probables.

autres

N/A

Code d'erreur personnalisé.

Red Hat logoGithubRedditYoutubeTwitter

Apprendre

Essayez, achetez et vendez

Communautés

À propos de la documentation Red Hat

Nous aidons les utilisateurs de Red Hat à innover et à atteindre leurs objectifs grâce à nos produits et services avec un contenu auquel ils peuvent faire confiance.

Rendre l’open source plus inclusif

Red Hat s'engage à remplacer le langage problématique dans notre code, notre documentation et nos propriétés Web. Pour plus de détails, consultez leBlog Red Hat.

À propos de Red Hat

Nous proposons des solutions renforcées qui facilitent le travail des entreprises sur plusieurs plates-formes et environnements, du centre de données central à la périphérie du réseau.

© 2024 Red Hat, Inc.