Capítulo 8. Configuración del tiempo máximo de recuperación de errores de almacenamiento con eh_deadline
Puede configurar el tiempo máximo permitido para recuperar los dispositivos SCSI que han fallado. Esta configuración garantiza un tiempo de respuesta de E/S incluso cuando el hardware de almacenamiento deja de responder debido a un fallo.
8.1. El parámetro eh_deadline
El mecanismo de manejo de errores SCSI (EH) intenta realizar la recuperación de errores en los dispositivos SCSI fallidos. El parámetro SCSI host object eh_deadline
le permite configurar la cantidad máxima de tiempo para la recuperación. Después de que el tiempo configurado expira, SCSI EH se detiene y reinicia todo el adaptador de bus de host (HBA).
El uso de eh_deadline
puede reducir el tiempo:
- para cerrar una ruta fallida,
- para cambiar de ruta, o
- para desactivar una porción de RAID.
Cuando eh_deadline
expira, SCSI EH reinicia el HBA, lo que afecta a todas las rutas de destino de ese HBA, no sólo a la que falla. Si algunas de las rutas redundantes no están disponibles por otras razones, pueden producirse errores de E/S. Habilite eh_deadline
sólo si tiene una configuración multirruta totalmente redundante en todos los objetivos.
Escenarios en los que eh_deadline es útil
En la mayoría de los escenarios, no es necesario habilitar eh_deadline
. El uso de eh_deadline
puede ser útil en ciertos escenarios específicos, por ejemplo, si se produce una pérdida de enlace entre un conmutador de canal de fibra (FC) y un puerto de destino, y el HBA no recibe notificaciones de cambio de estado registrado (RSCN). En tal caso, las solicitudes de E/S y los comandos de recuperación de errores se agotan en lugar de encontrar un error. La configuración de eh_deadline
en este entorno pone un límite superior al tiempo de recuperación. Esto permite que la E/S fallida sea reintentada en otra ruta disponible por DM Multipath.
En las siguientes condiciones, la funcionalidad eh_deadline
no proporciona ningún beneficio adicional, porque los comandos de E/S y de recuperación de errores fallan inmediatamente, lo que permite a DM Multipath reintentar:
- Si los RSCN están activados
- Si el HBA no registra que el enlace no está disponible
Valores posibles
El valor de eh_deadline
se especifica en segundos.
La configuración por defecto es off
, que desactiva el límite de tiempo y permite que se produzca toda la recuperación de errores.