9.12. Fencing ocorre Aleatóriamente
Se você acha que um nó está recebendo fence aleatóriamente, verifique pelas seguintes condições.
- O causador principal de fences é sempre um nó perdendo um token, significando que perdeu comunicação com o resto do cluster e parou de retornar pulsações.
- Qualquer situação que resulta em um sistema não retornar pulsações dentro de um intervalo específico de token pode resultar em um fence. Por padrão o intervalo de token é de 10 segundos. Isso pode ser especificado adicionando o valor desejado (em milisegundos) ao parametro de token no rótulo totem no arquivo
cluster.conf
(por exemplo, configurandototem token="30000"
para 30 segundos). - Certifique-se que a rede está rodando perfeitamente conforme esperado.
- Certifique-se de que as interfaces que o cluster utiliza para uma comunicação entre nós, não está utilizando qualquer modo de vínculo a não ser o 0, 1 e 2. (Os modos de vínculo 0 e 2 são suportados desde o Red Hat Enterprise Linux 6.4).
- Tome medidas para determinar se um sistema está "congelado" ou o kernel em pânico. Configure o utilitário
kdump
e veja se você recebe um núcleo durante um destes fences. - Certifique-se que você não está atribuindo o problema a um fence erroneamente, por exemplo o disco de quorum expulsando um nó devido a uma falha de armazenamento ou um produto de terceitos como Oracle RAC reinicializando um nó devido a uma condição externa. As mensagens de log são muitas vezes úteis para determinar tais problemas. Toda vez que uma reinicialização de fence ou nó ocorrer, isso deve ser uma prática padrão verificar as mensagens de log de todos os nós no cluster a partir do momento que o reboot/fence tiver ocorrido.
- Verifique completamente o sistema por falhas em hardware que podem levar sistemas a não responder às pulsações quando esperados.