9.4. O daemon do Cluster trava
O RGManager possui processo de watchdog que reinicializa a máquina se o processo principal
rgmanager
falha inesperadamente. Isto faz com que o nó de cluster seja preso em um fence e que o rgmanager
recupere o serviço em outra máquina. Quando o daemon do watchdog detecta que o processo principal do rgmanager
travou, ele então reinicializa o nó de cluster, e os nós de cluster ativos irão detectar que o nó de cluster saiu e irá retirá-lo do cluster.
O número mais baixo do process ID (PID) é o processo do watchdog que leva a ação se seu filho (o processo com o número PID mais alto) trava. Capturar o centro do processo com um número PID mais alto utilizando o
gcore
pode ajudar na solução de problemas de um daemon travado.
Instale os pacotes que são necessários para capturar e visualizar o núcleo e certifique-se de que ambos o
rgmanager
e rgmanager-debuginfo
são da mesma versão ou o núcleo do aplicativo capturado pode estar em desuso.
$ yum -y --enablerepo=rhel-debuginfo install gdb rgmanager-debuginfo
9.4.1. Capturar o Núcleo rgmanager
durante o tempo de execução.
Existem dois processos
rgmanager
que estão em execução desde o início. Você precisa capturar o núcleo para que o processo do rgmanager
com o PID mais alto.
O exemplo a seguir é um resultado do comando
ps
mostrando dois processos para rgmanager
.
$ ps aux | grep rgmanager | grep -v grep root 22482 0.0 0.5 23544 5136 ? S<Ls Dec01 0:00 rgmanager root 22483 0.0 0.2 78372 2060 ? S<l Dec01 0:47 rgmanager
No exemplo a seguir, o programa
pidof
é usado para determinar automaticamente o pid com maior número, o qual é o pid apropriado para criar um núcleo. O comando completo capta o núcleo de aplicativo para o processo 22483 o qual possui o número de pid maior.
$ gcore -o /tmp/rgmanager-$(date '+%F_%s').core $(pidof -s rgmanager)