
Todos os meses, um dos meus servidores executando o VMware 4.1 parou de responder. A única maneira de recuperá-lo era fazer uma reinicialização forçada. Quando isso aconteceu, consegui me conectar ao VMware, mas não consegui fazer nada, exceto navegar e visualizar informações.
O servidor é Dell PowerEdge R210 com dois discos SATA de 1 TB e controlador Dell SAS 6/iR Adapter Raid (espelhamento dos discos, sem bateria). Tenho outro servidor idêntico rodando sem problemas.
Agora substituí o servidor para poder fazer alguns testes para descobrir isso. Até agora eu: atualizei o BIOS e o firmware do controlador Raid, reinstalei o VMware, substituí todos os módulos de RAM, mas isso não resolve o problema.
Tentei instalar o Ubuntu no servidor e o problema não existe aí, apenas ao rodar o VMware.
Isso já aconteceu cerca de 10 vezes e parece que é mais provável que aconteça sob muita carga de disco.
As mensagens de erro são assim:
Conectividade perdida com o dispositivo de armazenamento naa.600508e000000000a528c060b1275b09. O caminho vmhba1:C1:T0:L0 está inativo. Datastores afetados: "", "datastore1", "Hypervisor1", "Hypervisor2", "Hypervisor3".
Perda de acesso ao volume 50520233-c467e816-a5a1-0026b97a4010 (datastore1) devido a problemas de conectividade. A tentativa de recuperação está em andamento e o resultado será relatado em breve.
Aqui estão as entradas de registro:
Responder1
Possivelmente o tempo limite do disco SATA. Você pode ter um problema ruim oufalhandodisco.
Existe algum cache com bateria no seu controlador PERC?