
Cada mes, uno de mis servidores que ejecutaba VMware 4.1 dejó de responder. La única forma de recuperarlo era realizar un reinicio completo. Cuando esto sucedió, pude conectarme a VMware pero no pude hacer nada más que navegar y ver información.
El servidor es Dell PowerEdge R210 con dos discos SATA de 1 TB y un controlador Raid adaptador Dell SAS 6/iR (duplicando los discos, sin batería). Tengo otro servidor idéntico funcionando sin problemas.
Ahora reemplacé el servidor para poder hacer algunas pruebas para resolver esto. Hasta ahora: actualicé el BIOS y el firmware del controlador Raid, reinstalé VMware, reemplacé todos los módulos de RAM, pero eso no soluciona el problema.
Intenté instalar Ubuntu en el servidor y el problema no existe allí, solo cuando ejecuto VMware.
Esto ya ha sucedido unas 10 veces y parece que es más probable que suceda con mucha carga del disco.
Los mensajes de error son así:
Se perdió la conectividad con el dispositivo de almacenamiento naa.600508e000000000a528c060b1275b09. La ruta vmhba1:C1:T0:L0 está inactiva. Almacenes de datos afectados: "", "datastore1", "Hypervisor1", "Hypervisor2", "Hypervisor3".
Se perdió el acceso al volumen 50520233-c467e816-a5a1-0026b97a4010 (datastore1) debido a problemas de conectividad. El intento de recuperación está en progreso y el resultado se informará en breve.
Aquí están las entradas del registro:
Respuesta1
Posiblemente se agoten los tiempos de espera del disco SATA. Es posible que tenga una mala odefectodisco.
¿Hay algún caché respaldado por batería en su controlador PERC?
Ver:¿Cómo puede un solo disco en una matriz SATA RAID-10 de hardware detener toda la matriz?