9.12. El cercado se presenta en forma aleatoria
Si encuentra que un nodo se cerca de forma aleatoria, revise las siguientes condiciones:
- La causa de las vallas es siempre un nodo que pierde el símbolo, es decir que pierde la comunicación con el resto del clúster y se detiene retornando latidos.
- Cualquier situación que resulte en un sistema que no retorne latidos dentro de un intervalo de símbolo especificado puede conducir a una valla. El intervalo de símbolo predeterminado es de 10 segundos. Puede ser especificado al añadir el valor deseado (en ms) al parámetro de símbolo de la etiqueta de totem en el archivo
cluster.conf
(por ejemplo, si establece untotem token="30000"
para 30 segundos). - Verifique si la red es segura y está funcionando como se espera.
- Verifique si las interfaces que utiliza el clúster usan la comunicación internodos ahora utiliza el modo de enlace diferente a 0, 1, o 2. (los modos de enlace 0 y 2 tienen soporte a partir de Red Hat Enterprise Linux 6.4.)
- Tome medidas para determinar si el sistema se está "congelando" o si hay una emergencia de kernel. Configure la herramienta
kdump
y observe si obtiene un núcleo en una de esas vallas. - Asegúrese que no se esté presentando alguna situación en la que usted esté erróneamente atribuyendo al cercado, por ejemplo el disco de cuórum que expulsa un nodo debido a una falla o a un producto de terceros tales como reinicio de RAC Oracle debido a alguna condición externa. Los registros de mensajes siempre son muy útiles para determinar dichos problemas. Cuando se presentan reinicios de vallas o nodos debería ser una práctica común inspeccionar los registros de mensajes de todos los nodos en el clúster desde que se presentan el reinicio y el cercado.
- Revise detenidamente el sistema por si hay fallas de hardware que puedan hacer que el sistema no responda a los latidos cuando se espera.