Chapitre 13. Maintenance des nœuds
13.1. À propos de la maintenance des nœuds
13.1.1. A propos du mode de maintenance des nœuds
Les nœuds peuvent être placés en mode maintenance à l'aide de l'utilitaire oc adm
ou des ressources personnalisées (CR) de NodeMaintenance
.
Le node-maintenance-operator
(NMO) n'est plus livré avec OpenShift Virtualization. Il est désormais disponible pour être déployé en tant qu'opérateur autonome depuis le site OperatorHub dans la console web d'OpenShift Container Platform, ou en utilisant la CLI d'OpenShift (oc
).
Le placement d'un nœud en maintenance indique que le nœud est inutilisable et draine toutes les machines virtuelles et tous les pods qui s'y trouvent. Les instances de machines virtuelles qui ont une stratégie d'éviction LiveMigrate
sont migrées en direct vers un autre nœud sans perte de service. Cette stratégie d'éviction est configurée par défaut dans les machines virtuelles créées à partir de modèles communs, mais doit être configurée manuellement pour les machines virtuelles personnalisées.
Les instances de machines virtuelles sans stratégie d'éviction sont arrêtées. Les machines virtuelles dont l'adresse RunStrategy
est Running
ou RerunOnFailure
sont recréées sur un autre nœud. Les machines virtuelles dont l'adresse RunStrategy
est Manual
ne sont pas redémarrées automatiquement.
Les machines virtuelles doivent disposer d'une revendication de volume persistant (PVC) avec un mode d'accès partagé ReadWriteMany
(RWX) pour être migrées en direct.
L'opérateur de maintenance des nœuds surveille les CR NodeMaintenance
nouveaux ou supprimés. Lorsqu'un nouveau CR NodeMaintenance
est détecté, aucune nouvelle charge de travail n'est programmée et le nœud est isolé du reste du cluster. Tous les pods qui peuvent être expulsés le sont du nœud. Lorsqu'un CR NodeMaintenance
est supprimé, le nœud référencé dans le CR est rendu disponible pour de nouvelles charges de travail.
L'utilisation d'un CR NodeMaintenance
pour les tâches de maintenance des nœuds permet d'obtenir les mêmes résultats que les commandes oc adm cordon
et oc adm drain
à l'aide du traitement standard des ressources personnalisées d'OpenShift Container Platform.
13.1.2. Maintenance des nœuds métalliques nus
Lorsque vous déployez OpenShift Container Platform sur une infrastructure bare metal, il y a des considérations supplémentaires qui doivent être prises en compte par rapport au déploiement sur une infrastructure cloud. Contrairement aux environnements cloud où les nœuds de cluster sont considérés comme éphémères, le réapprovisionnement d'un nœud bare metal nécessite beaucoup plus de temps et d'efforts pour les tâches de maintenance.
Lorsqu'un nœud bare metal tombe en panne, par exemple en cas d'erreur fatale du noyau ou de défaillance matérielle d'une carte NIC, les charges de travail sur le nœud en panne doivent être redémarrées ailleurs dans la grappe pendant que le nœud défectueux est réparé ou remplacé. Le mode de maintenance des nœuds permet aux administrateurs de clusters de mettre les nœuds hors tension de manière élégante, en déplaçant les charges de travail vers d'autres parties du cluster et en veillant à ce que les charges de travail ne soient pas interrompues. Des informations détaillées sur la progression et l'état des nœuds sont fournies pendant la maintenance.
13.1.3. Ressources supplémentaires
- Installation de l'opérateur de maintenance de nœuds à l'aide de la CLI
- Mise en mode maintenance d'un nœud
- Reprise d'un nœud en mode maintenance
- À propos des stratégies d'exécution pour les machines virtuelles
- Migration en direct de la machine virtuelle
- Configuration de la stratégie d'éviction des machines virtuelles