Obtendo coisas assim nos logs:
2 de outubro 22:11:21 kernel de Júpiter: [439646.093111] ata4.00: exceção Emask 0x0 SAct 0x0 SErr 0x0 ação 0x6 2 de outubro 22:11:21 kernel de Júpiter: [439646.093144] ata4.00: BMDMA stat 0x6 2 de outubro 22:11:21 kernel de Júpiter: [439646.093176] ata4.00: comando com falha: WRITE DMA EXT 2 de outubro 22:11:21 kernel de Júpiter: [439646.093206] ata4.00: cmd 35/00:98:00:0d:ff/00:02:42:00:00/e0 tag 0 dma 339968 out 2 de outubro 22:11:21 kernel de Júpiter: [439646.093282] ata4.00: status: {DRDY ERR} 2 de outubro 22:11:21 kernel de Júpiter: [439646.093306] ata4.00: erro: {ICRC ABRT} 2 de outubro 22:11:21 kernel de Júpiter: [439646.093353] ata4: link de reinicialização suave 2 de outubro 22:11:21 kernel de Júpiter: [439646.265242] ata4.00: configurado para UDMA/133 2 de outubro 22:11:21 kernel de Júpiter: [439646.265268] ata4: EH completo
Agora me pergunto qual disco substituir. Mas não consigo encontrar nenhum mapeamento claro entre as entradas "ataX.YZ" e /dev/disk/.
Responder1
Você deve obter mais informações do dmesg:
dmesg | grep ata
Algo como:
[ 2.345126] ata2.00: ATA-8: WDC WD20EARX-00PASB0, 51.0AB51, max UDMA/133
Esse seria meu disco rígido Wester Digital.
Aqui está uma maneira se você tiver várias unidades de um modelo (quando acima não ajuda):
Encontre um mapeamento do host SCSI para o ID ata*:
$ egrep "^[0-9]{1,}" /sys/class/scsi_host/host*/unique_id /sys/class/scsi_host/host0/unique_id:1 /sys/class/scsi_host/host1/unique_id:2 /sys/class/scsi_host/host2/unique_id:3 /sys/class/scsi_host/host3/unique_id:4
Encontre um mapeamento do host SCSI para o ID sd*:
$ ls -l /sys/block/sd* ... /sys/block/sda -> ../devices/pci0000:00/0000:00:1f.2/host0/target0:0:0/0:0:0:0/block/sda ... /sys/block/sdb -> ../devices/pci0000:00/0000:00:1f.2/host1/target1:0:0/1:0:0:0/block/sdb
Agora você pode vincular esses dois resultados por meio do identificador host*. Então, se nesse caso eu estiver tendo problemas com ata2, procuraria o unique_id 2 → host1 e, em seguida, qual sd* é host1 → sdb.
Eu também tentei criar uma frase única. Não faço ideia se isso é robusto. Você primeiro deve definir ata* como uma variável:
FAIL=ata1
então corra:
echo "$FAIL -> $(ls -l /sys/block/ | grep $(grep "^$(echo $FAIL | cut -c 4-)" /sys/class/scsi_host/host*/unique_id | sed "s/.*\(host[0-9]\{1,\}\).*/\1/") | awk '{print $8}')"
que deve retornar algo como:
ata1 -> sda
Responder2
Em alguns dos meus servidores, tenho dois ou mais dispositivos em um scsi_host. Não sei se está correto, mas presumi que pode ser diferenciado por alvo e funciona para mim:
ls -l /sys/block/sd*
lrwxrwxrwx 1 root root 0 2012-02-08 08:15 /sys/block/sda -> ../devices/pci0000:00/0000:00:01.0/0000:01:00.0/host3/target3:0:0/3:0:0:0/block/sda
lrwxrwxrwx 1 root root 0 2012-02-08 08:15 /sys/block/sdb -> ../devices/pci0000:00/0000:00:1f.2/host6/target6:0:0/6:0:0:0/block/sdb
lrwxrwxrwx 1 root root 0 2012-02-08 08:15 /sys/block/sdc -> ../devices/pci0000:00/0000:00:1f.2/host7/target7:0:0/7:0:0:0/block/sdc
lrwxrwxrwx 1 root root 0 2012-02-08 08:15 /sys/block/sdd -> ../devices/pci0000:00/0000:00:1f.2/host8/target8:0:0/8:0:0:0/block/sdd
lrwxrwxrwx 1 root root 0 2012-02-08 08:15 /sys/block/sde -> ../devices/pci0000:00/0000:00:1f.2/host9/target9:0:0/9:0:0:0/block/sde
lrwxrwxrwx 1 root root 0 2012-02-08 08:15 /sys/block/sdf -> ../devices/pci0000:00/0000:00:1f.2/host10/target10:0:0/10:0:0:0/block/sdf
lrwxrwxrwx 1 root root 0 2012-02-08 08:15 /sys/block/sdg -> ../devices/pci0000:00/0000:00:1f.2/host11/target11:0:0/11:0:0:0/block/sdg
lrwxrwxrwx 1 root root 0 2012-02-08 08:15 /sys/block/sdh -> ../devices/pci0000:00/0000:00:1c.4/0000:04:00.0/host13/target13:0:0/13:0:0:0/block/sdh
lrwxrwxrwx 1 root root 0 2012-02-08 08:15 /sys/block/sdi -> ../devices/pci0000:00/0000:00:1c.4/0000:04:00.0/host13/target13:0:1/13:0:1:0/block/sdi
Script bash simples:
#!/bin/bash
#inspired by http://askubuntu.com/questions/64351/how-to-match-ata4-00-to-the-apropriate-dev-sdx-or-actual-physical-disk
for d in /sys/block/sd*
do
s=`basename $d`
h=`ls -l $d | egrep -o "host[0-9]+"`
t=`ls -l $d | egrep -o "target[0-9:]*"`
a2=`echo $t | egrep -o "[0-9]:[0-9]$" | sed 's/://'`
a=`cat /sys/class/scsi_host/$h/unique_id`
echo "$s -> ata$a.$a2"
done
e a saída é:
sda -> ata4.00
sdb -> ata7.00
sdc -> ata8.00
sdd -> ata9.00
sde -> ata10.00
sdf -> ata11.00
sdg -> ata12.00
sdh -> ata14.00
sdi -> ata14.01
Responder3
Tarde demais agora, mas para o bem de outros leitores... tive que responder à sua outra pergunta "Agora me pergunto qual disco substituir."
O sinalizador de erro do CICV está quase sempre associado a um cabo SATA defeituoso, é fácil de substituir/testar. É ligeiramente possível levantar a bandeira do CICV se a energia da unidade estiver com defeito.
O que é certo, porém, é que existeNÃOevidência de algo errado com a unidade! Substitua o cabo SATA.