
Temos um Dell PowerEdge T110 rodando o Fedora 14 que opera como nosso servidor de compilação para Linux Embarcado e como nosso servidor Subversion.
Recentemente, tornou-se muito lento, não conseguindo concluir os backups noturnos antes do início do novo dia.
[EDIT] Obrigado User9517 - Verifiquei o log e há várias mensagens do MRMON (Mega Raid Monitor). Qualquer orientação sobre a interpretação dessas mensagens, os próximos passos e como determinar qual unidade precisa ser substituída ajudaria.
Dec 20 09:02:32 localhost MR_MONITOR[2153]: <MRMON096> Controller ID: 0 PD Predictive failure: #012 -:-:2
Dec 20 09:06:44 localhost MR_MONITOR[2153]: <MRMON113> Controller ID: 0 Unexpected sense: PD #012 = -:-:2No defect spare location available, CDB = 0x28 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 , Sense = 0x70 0x00 0x04 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x32 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00
Dec 20 09:09:44 localhost MR_MONITOR[2153]: <MRMON096> Controller ID: 0 PD Predictive failure: #012 -:-:2
[/EDITAR]
Estou procurando ajuda para rastrear a falha. Definitivamente não sou especialista nisso, a pessoa que configurou o sistema originalmente não está mais aqui.
O backup noturno tem aproximadamente 6 GByte de arquivo tgz, que começa às 20h. Isso costumava terminar por volta das 4h (incluindo a cópia para uma unidade externa). O backup semanal tem cerca de 45 GByte, e costumava terminar às 11h de sábado, a partir das 20h de sexta-feira.
Além do backup, a máquina fica visivelmente lenta para responder, mesmo quando o processo de backup não está em execução.
Aqui está o que reuni até agora:
Há um controlador RAID DELL PERC H200L com quatro unidades Seagate de 1 TB conectadas (ST31000424SS). EUpensarestá configurado para RAID 10, mas não sei como acessar a configuração deste controlador. Acredito no RAID 10 porque existem 4 unidades, e o vgdisplay mostra 1,81 Terabytes alocados do total de 4 terabytes nas 4 unidades.
[root@fedorabox backup]# vgdisplay
--- Volume group ---
VG Name vg_fedorabox2
System ID
Format lvm2
Metadata Areas 1
Metadata Sequence No 8
VG Access read/write
VG Status resizable
MAX LV 0
Cur LV 5
Open LV 5
Max PV 0
Cur PV 1
Act PV 1
VG Size 1.81 TiB
PE Size 32.00 MiB
Total PE 59263
Alloc PE / Size 28480 / 890.00 GiB
Free PE / Size 30783 / 961.97 GiB
Não consigo ver nenhuma outra unidade real na máquina, então acho que a partição de inicialização (/dev/sdb1) está de alguma forma particionada das 4 unidades.
(/dev/sda é um disco rígido externo para backups - mas esse não é o problema. O backup ainda está sendo gerado na partição /backup quando chegamos pela manhã. A cópia para a unidade USB conectada não foi iniciado)
[root@fedorabox backup]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/vg_fedorabox2-LogVol00
9.9G 5.2G 4.3G 55% /
tmpfs 2.0G 932K 2.0G 1% /dev/shm
/dev/sdb1 504M 56M 423M 12% /boot
/dev/mapper/vg_fedorabox2-LogVol03
394G 221G 153G 60% /home
/dev/mapper/vg_fedorabox2-LogVol02
99G 29G 65G 32% /shared
/dev/mapper/vg_fedorabox2-LogVol01
30G 11G 18G 37% /usr
/dev/sda2 5.5T 2.6T 3.0T 47% /mnt/root/usbbackup2
/dev/mapper/vg_fedorabox2-LogVol04
345G 363M 327G 1% /backup
como eu disse na pergunta, a velocidade de gravação émuitolento:
[root@fedorabox backup]# dd if=/dev/zero of=/backup/tmp/test.out bs=512 count=32 oflag=dsync
32+0 records in
32+0 records out
16384 bytes (16 kB) copied, 40.382 s, 0.4 kB/s
[root@fedorabox backup]# dd of=/dev/null if=/backup/tmp/test.out bs=512 count=32 oflag=dsync
32+0 records in
32+0 records out
16384 bytes (16 kB) copied, 3.5087e-05 s, 467 MB/s
Posso acessar as quatro unidades usando smartctl como /dev/sg2 até /dev/sg5. A saída está listada abaixo. Não sei para que serve a leitura normalerros corrigidosaqui, mas observo que a segunda e a quarta unidades (/dev/sg3, sg5) listaramerros não corrigidospara leitura e verificação.
Algum conselho sobre as próximas etapas - Os erros não corrigidos são normais ou preocupantes? Essa é a causa da lentidão ou há algo mais que eu deveria observar?
Algum conselho sobre como substituir uma unidade e como acessar a configuração RAID?
[root@fedorabox /]# smartctl -a /dev/sg2
smartctl 5.40 2010-10-16 r3189 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
Device: SEAGATE ST1000NM0001 Version: PS06
Serial number: Z1N2LEDW
Device type: disk
Transport protocol: SAS
Local Time is: Mon Dec 19 12:10:20 2022 EST
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Current Drive Temperature: 37 C
Drive Trip Temperature: 68 C
Manufactured in week 33 of year 2012
Specified cycle count over device lifetime: 10000
Accumulated start-stop cycles: 71
Elements in grown defect list: 36
Vendor (Seagate) cache information
Blocks sent to initiator = 2805494200
Blocks received from initiator = 1072424796
Blocks read from cache and sent to initiator = 19110177
Number of read and write commands whose size <= segment size = 826634038
Number of read and write commands whose size > segment size = 5264167
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 11183.37
number of minutes until next internal SMART test = 43
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 3996823525 0 0 3996823525 0 130.509 0
write: 0 0 0 0 0 62619.327 0
verify: 1594450892 0 0 1594450892 0 51866.259 0
Non-medium error count: 9
SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background short Completed 32 11182 - [- - -]
Long (extended) Self Test duration: 11100 seconds [185.0 minutes]
[root@fedorabox /]# smartctl -a /dev/sg3
smartctl 5.40 2010-10-16 r3189 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
Device: SEAGATE ST31000424SS Version: KS68
Serial number: 9WK3JSJV
Device type: disk
Transport protocol: SAS
Local Time is: Mon Dec 19 12:10:44 2022 EST
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Current Drive Temperature: 37 C
Drive Trip Temperature: 68 C
Manufactured in week 06 of year 2011
Specified cycle count over device lifetime: 10000
Accumulated start-stop cycles: 81
Specified load-unload count over device lifetime: 300000
Accumulated load-unload cycles: 81
Elements in grown defect list: 21
Vendor (Seagate) cache information
Blocks sent to initiator = 1872227385
Blocks received from initiator = 3603107317
Blocks read from cache and sent to initiator = 53905772
Number of read and write commands whose size <= segment size = 1041622488
Number of read and write commands whose size > segment size = 5288254
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 77337.02
number of minutes until next internal SMART test = 16
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 1454822558 3 0 1454822561 1454822585 2465.838 21
write: 0 0 0 0 0 64012.923 0
verify: 2113323340 143 0 2113323483 2113323510 49057.393 17
Non-medium error count: 4
SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background short Completed 16 643 - [- - -]
# 2 Background short Completed 16 5 - [- - -]
# 3 Background long Completed 16 5 - [- - -]
Long (extended) Self Test duration: 11100 seconds [185.0 minutes]
[root@fedorabox /]# smartctl -a /dev/sg4
smartctl 5.40 2010-10-16 r3189 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
Device: SEAGATE ST31000424SS Version: KS68
Serial number: 9WK3H8DW
Device type: disk
Transport protocol: SAS
Local Time is: Mon Dec 19 12:11:02 2022 EST
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Current Drive Temperature: 38 C
Drive Trip Temperature: 68 C
Manufactured in week 06 of year 2011
Specified cycle count over device lifetime: 10000
Accumulated start-stop cycles: 76
Specified load-unload count over device lifetime: 300000
Accumulated load-unload cycles: 76
Elements in grown defect list: 1
Vendor (Seagate) cache information
Blocks sent to initiator = 1437832391
Blocks received from initiator = 3080050213
Blocks read from cache and sent to initiator = 2689371046
Number of read and write commands whose size <= segment size = 3306395247
Number of read and write commands whose size > segment size = 5018225
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 77337.17
number of minutes until next internal SMART test = 58
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 1514637706 1007 0 1514638713 1514638713 1576907.538 0
write: 0 0 0 0 0 61240.330 0
verify: 1697580124 32 0 1697580156 1697580157 48889.638 0
Non-medium error count: 27
SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background short Completed 16 18 - [- - -]
# 2 Background short Completed 16 5 - [- - -]
# 3 Background long Completed 16 5 - [- - -]
Long (extended) Self Test duration: 11100 seconds [185.0 minutes]
[root@fedorabox /]# smartctl -a /dev/sg5
smartctl 5.40 2010-10-16 r3189 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
Device: SEAGATE ST31000424SS Version: KS68
Serial number: 9WK3FCZ6
Device type: disk
Transport protocol: SAS
Local Time is: Mon Dec 19 12:11:41 2022 EST
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Current Drive Temperature: 38 C
Drive Trip Temperature: 68 C
Manufactured in week 06 of year 2011
Specified cycle count over device lifetime: 10000
Accumulated start-stop cycles: 81
Specified load-unload count over device lifetime: 300000
Accumulated load-unload cycles: 81
Elements in grown defect list: 4096
Vendor (Seagate) cache information
Blocks sent to initiator = 923606853
Blocks received from initiator = 3074269061
Blocks read from cache and sent to initiator = 3237322768
Number of read and write commands whose size <= segment size = 3044372010
Number of read and write commands whose size > segment size = 5024782
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 77336.67
number of minutes until next internal SMART test = 53
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 2058067359 277563 0 2058344922 2058345511 1420772.201 555
write: 0 0 0 0 0 62186.800 0
verify: 2750944424 2205 0 2750946629 2750946631 50834.359 1
Non-medium error count: 167
SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background short Completed 16 643 - [- - -]
# 2 Background short Completed 16 5 - [- - -]
# 3 Background long Completed 16 5 - [- - -]
Long (extended) Self Test duration: 11100 seconds [185.0 minutes]
Responder1
Dell PERC é essencialmente renomeado como LSI MegaRAID SAS.
Olhe para o seu lspci -k
para ver qual driver ele usa. É provável megaraid_sas
. O fato de você estar usando o MegaRAID Monitor com sucesso sugere que esse deve ser o caso. Assim, com o megacli
pacote seria possível controlar seu controlador RAID a partir do Linux.
Embora onde encontrá-lo hoje para a versão antiga do Fedora permaneça uma questão. Tente olharhttps://hwraid.le-vert.netparaMegaRAID SASou, possivelmente,MegaRAIDpara o software.
O software possui um pequeno lembrete embutido (run megacli -h
) e também descrito emGuia do usuário do software MegaRAID SASque você pode obter deBroadcom(quem comprou Avago que comprou LSI). Também existem algumas folhas de dicas na Internet.
Por exemplo, você pode começar obtendo informações de diagnóstico:
megacli -AdpAllInfo -aALL
megacli -AdpPR -info -aALL
megacli -LdPdInfo -aALL
megacli -AdpBbuCmd -GetBbuStatus -aALL
megacli -AdpEventLog -GetEventLogInfo -aALL
Esses comandos fazem o seguinte, respectivamente:
- Obtenha o status e alertas gerais do controlador (incluindo o número de dispositivos com defeito)
- Obtenha o status das operações de leitura de patrulha (leitura periódica de todos os dispositivos para detectar precocemente os defeituosos)
- Obtenha discos lógicos e seus discos físicos componentescom seu status. Se houver discos com falha, você verá quais e em quais slots eles estão.
- Obtenha o status da bateria do cache
- Obtenha os logs de eventos do adaptador; isso pode ajudá-lo a determinar exatamente quando detectou um problema e em quais circunstâncias.
O fato de você ter RAID não o isenta de monitorar a integridade de seus discos e array. O RAID só ajuda a evitar o tempo de inatividade quando monitorado e mantido adequadamente. smartmontools
é capaz de monitorar discos mesmo atrás de alguns controladores RAID de hardware; use-o!
É hora de esquecer aqueles mantras “não toque se funcionar” e “não conserte se não estiver quebrado”. Estas não são relevantes para o mundo em rápida evolução. Considere isto: a versão antiga do sistema operacionaléjá quebrado porque é velho. Um administrador competentevaiconsertar sistemas aparentemente "não quebrados" para mantê-los intactos.
O que é pior, um sistema antigo (de 10 anos) não-LTS como o Fedora está gravemente quebrado. A ideia de hospedar qualquer coisa de importância comercial em tal distribuição foi quebrada por design; se fosse CentOS (que era LTS há 10 anos, atualmente você usará Oracle Linux, AlmaLinux ou Rocky Linux) não seriaqueruim, mas o Fedora sempre foi uma escolha inadequada para um servidor de produção. Portanto, mesmo que tivesse apenas dois anos, você teria que substituí-lo.
E é melhor ter ferramentas de gerenciamento de hardware ( megacli
e ipmiutil
assim por diante) sempre instaladas. Você nunca sabe quando precisará deles e eles podem já estar indisponíveis para você, então espalhe o canudo com antecedência.