
우리는 Embedded Linux용 빌드 서버와 Subversion 서버로 작동하는 Fedora 14를 실행하는 Dell PowerEdge T110을 보유하고 있습니다.
최근에는 속도가 매우 느려져 새 날이 시작되기 전에 야간 백업을 완료하지 못했습니다.
[편집] 감사합니다 User9517 - 로그를 확인했는데 MRMON(Mega Raid Monitor)에서 여러 메시지가 왔습니다. 이러한 메시지 해석, 다음 단계 및 교체가 필요한 드라이브를 결정하는 방법에 대한 지침이 도움이 될 것입니다.
Dec 20 09:02:32 localhost MR_MONITOR[2153]: <MRMON096> Controller ID: 0 PD Predictive failure: #012 -:-:2
Dec 20 09:06:44 localhost MR_MONITOR[2153]: <MRMON113> Controller ID: 0 Unexpected sense: PD #012 = -:-:2No defect spare location available, CDB = 0x28 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 , Sense = 0x70 0x00 0x04 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x32 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00
Dec 20 09:09:44 localhost MR_MONITOR[2153]: <MRMON096> Controller ID: 0 PD Predictive failure: #012 -:-:2
[/편집하다]
결함을 추적하기 위해 도움을 찾고 있습니다. 저는 확실히 이 분야의 전문가는 아닙니다. 원래 시스템을 설정한 사람은 더 이상 여기에 없습니다.
야간 백업은 약 6GB의 tgz 파일이며 오후 8시에 시작됩니다. 이 작업은 오전 4시경에 완료되었습니다(외부 드라이브로 복사 포함). 주간 백업은 약 45GB이며, 금요일 오후 8시에 시작해서 토요일 오전 11시에 완료되었습니다.
백업 외에도 백업 프로세스가 실행되지 않는 경우에도 머신의 응답 속도가 눈에 띄게 느립니다.
내가 지금까지 수집한 내용은 다음과 같습니다.
4개의 Seagate 1TB 드라이브가 연결된 RAID 컨트롤러 DELL PERC H200L이 있습니다(ST31000424SS). 나생각하다RAID 10으로 설정되어 있지만 이 컨트롤러의 구성에 액세스하는 방법을 모르겠습니다. 나는 4개의 드라이브가 있기 때문에 RAID 10을 믿고 있으며 vgdisplay는 4개의 드라이브에 총 4TB 중 1.81TB가 할당된 것으로 표시합니다.
[root@fedorabox backup]# vgdisplay
--- Volume group ---
VG Name vg_fedorabox2
System ID
Format lvm2
Metadata Areas 1
Metadata Sequence No 8
VG Access read/write
VG Status resizable
MAX LV 0
Cur LV 5
Open LV 5
Max PV 0
Cur PV 1
Act PV 1
VG Size 1.81 TiB
PE Size 32.00 MiB
Total PE 59263
Alloc PE / Size 28480 / 890.00 GiB
Free PE / Size 30783 / 961.97 GiB
컴퓨터에서 다른 실제 드라이브를 볼 수 없으므로 부팅 파티션(/dev/sdb1)이 어떻게든 4개의 드라이브에서 분할되어 있는 것 같습니다.
(/dev/sda는 백업을 위한 외장 하드 드라이브입니다. 하지만 이는 문제가 되지 않습니다. 아침에 도착했을 때 /backup 파티션에서 백업이 계속 생성되고 있습니다. USB 연결 드라이브에 대한 복사가 완료되지 않았습니다. 시작됨)
[root@fedorabox backup]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/vg_fedorabox2-LogVol00
9.9G 5.2G 4.3G 55% /
tmpfs 2.0G 932K 2.0G 1% /dev/shm
/dev/sdb1 504M 56M 423M 12% /boot
/dev/mapper/vg_fedorabox2-LogVol03
394G 221G 153G 60% /home
/dev/mapper/vg_fedorabox2-LogVol02
99G 29G 65G 32% /shared
/dev/mapper/vg_fedorabox2-LogVol01
30G 11G 18G 37% /usr
/dev/sda2 5.5T 2.6T 3.0T 47% /mnt/root/usbbackup2
/dev/mapper/vg_fedorabox2-LogVol04
345G 363M 327G 1% /backup
질문에서 말했듯이 쓰기 속도는매우느린:
[root@fedorabox backup]# dd if=/dev/zero of=/backup/tmp/test.out bs=512 count=32 oflag=dsync
32+0 records in
32+0 records out
16384 bytes (16 kB) copied, 40.382 s, 0.4 kB/s
[root@fedorabox backup]# dd of=/dev/null if=/backup/tmp/test.out bs=512 count=32 oflag=dsync
32+0 records in
32+0 records out
16384 bytes (16 kB) copied, 3.5087e-05 s, 467 MB/s
/dev/sg2부터 /dev/sg5까지 smartctl을 사용하여 4개의 드라이브에 액세스할 수 있습니다. 출력은 다음과 같습니다. 나는 정상적인 독서가 무엇인지 모른다.오류 수정여기에는 두 번째와 네 번째 드라이브(/dev/sg3, sg5)가 나열되어 있습니다.수정되지 않은 오류읽고 확인하기 위해.
다음 단계에 대한 조언 - 수정되지 않은 오류가 정상인가요 아니면 걱정스러운가요? 이것이 속도 저하의 원인입니까, 아니면 제가 살펴보아야 할 다른 것이 있습니까?
드라이브 교체 방법과 RAID 구성에 액세스하는 방법에 대한 조언이 있습니까?
[root@fedorabox /]# smartctl -a /dev/sg2
smartctl 5.40 2010-10-16 r3189 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
Device: SEAGATE ST1000NM0001 Version: PS06
Serial number: Z1N2LEDW
Device type: disk
Transport protocol: SAS
Local Time is: Mon Dec 19 12:10:20 2022 EST
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Current Drive Temperature: 37 C
Drive Trip Temperature: 68 C
Manufactured in week 33 of year 2012
Specified cycle count over device lifetime: 10000
Accumulated start-stop cycles: 71
Elements in grown defect list: 36
Vendor (Seagate) cache information
Blocks sent to initiator = 2805494200
Blocks received from initiator = 1072424796
Blocks read from cache and sent to initiator = 19110177
Number of read and write commands whose size <= segment size = 826634038
Number of read and write commands whose size > segment size = 5264167
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 11183.37
number of minutes until next internal SMART test = 43
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 3996823525 0 0 3996823525 0 130.509 0
write: 0 0 0 0 0 62619.327 0
verify: 1594450892 0 0 1594450892 0 51866.259 0
Non-medium error count: 9
SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background short Completed 32 11182 - [- - -]
Long (extended) Self Test duration: 11100 seconds [185.0 minutes]
[root@fedorabox /]# smartctl -a /dev/sg3
smartctl 5.40 2010-10-16 r3189 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
Device: SEAGATE ST31000424SS Version: KS68
Serial number: 9WK3JSJV
Device type: disk
Transport protocol: SAS
Local Time is: Mon Dec 19 12:10:44 2022 EST
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Current Drive Temperature: 37 C
Drive Trip Temperature: 68 C
Manufactured in week 06 of year 2011
Specified cycle count over device lifetime: 10000
Accumulated start-stop cycles: 81
Specified load-unload count over device lifetime: 300000
Accumulated load-unload cycles: 81
Elements in grown defect list: 21
Vendor (Seagate) cache information
Blocks sent to initiator = 1872227385
Blocks received from initiator = 3603107317
Blocks read from cache and sent to initiator = 53905772
Number of read and write commands whose size <= segment size = 1041622488
Number of read and write commands whose size > segment size = 5288254
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 77337.02
number of minutes until next internal SMART test = 16
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 1454822558 3 0 1454822561 1454822585 2465.838 21
write: 0 0 0 0 0 64012.923 0
verify: 2113323340 143 0 2113323483 2113323510 49057.393 17
Non-medium error count: 4
SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background short Completed 16 643 - [- - -]
# 2 Background short Completed 16 5 - [- - -]
# 3 Background long Completed 16 5 - [- - -]
Long (extended) Self Test duration: 11100 seconds [185.0 minutes]
[root@fedorabox /]# smartctl -a /dev/sg4
smartctl 5.40 2010-10-16 r3189 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
Device: SEAGATE ST31000424SS Version: KS68
Serial number: 9WK3H8DW
Device type: disk
Transport protocol: SAS
Local Time is: Mon Dec 19 12:11:02 2022 EST
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Current Drive Temperature: 38 C
Drive Trip Temperature: 68 C
Manufactured in week 06 of year 2011
Specified cycle count over device lifetime: 10000
Accumulated start-stop cycles: 76
Specified load-unload count over device lifetime: 300000
Accumulated load-unload cycles: 76
Elements in grown defect list: 1
Vendor (Seagate) cache information
Blocks sent to initiator = 1437832391
Blocks received from initiator = 3080050213
Blocks read from cache and sent to initiator = 2689371046
Number of read and write commands whose size <= segment size = 3306395247
Number of read and write commands whose size > segment size = 5018225
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 77337.17
number of minutes until next internal SMART test = 58
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 1514637706 1007 0 1514638713 1514638713 1576907.538 0
write: 0 0 0 0 0 61240.330 0
verify: 1697580124 32 0 1697580156 1697580157 48889.638 0
Non-medium error count: 27
SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background short Completed 16 18 - [- - -]
# 2 Background short Completed 16 5 - [- - -]
# 3 Background long Completed 16 5 - [- - -]
Long (extended) Self Test duration: 11100 seconds [185.0 minutes]
[root@fedorabox /]# smartctl -a /dev/sg5
smartctl 5.40 2010-10-16 r3189 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
Device: SEAGATE ST31000424SS Version: KS68
Serial number: 9WK3FCZ6
Device type: disk
Transport protocol: SAS
Local Time is: Mon Dec 19 12:11:41 2022 EST
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Current Drive Temperature: 38 C
Drive Trip Temperature: 68 C
Manufactured in week 06 of year 2011
Specified cycle count over device lifetime: 10000
Accumulated start-stop cycles: 81
Specified load-unload count over device lifetime: 300000
Accumulated load-unload cycles: 81
Elements in grown defect list: 4096
Vendor (Seagate) cache information
Blocks sent to initiator = 923606853
Blocks received from initiator = 3074269061
Blocks read from cache and sent to initiator = 3237322768
Number of read and write commands whose size <= segment size = 3044372010
Number of read and write commands whose size > segment size = 5024782
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 77336.67
number of minutes until next internal SMART test = 53
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 2058067359 277563 0 2058344922 2058345511 1420772.201 555
write: 0 0 0 0 0 62186.800 0
verify: 2750944424 2205 0 2750946629 2750946631 50834.359 1
Non-medium error count: 167
SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background short Completed 16 643 - [- - -]
# 2 Background short Completed 16 5 - [- - -]
# 3 Background long Completed 16 5 - [- - -]
Long (extended) Self Test duration: 11100 seconds [185.0 minutes]
답변1
Dell PERC는 기본적으로 LSI MegaRAID SAS로 브랜드가 변경되었습니다.
lspci -k
어떤 드라이버를 사용하는지 확인 하세요 . 그것은 가능성이 높습니다 megaraid_sas
. MegaRAID Monitor를 성공적으로 사용하고 있다는 사실은 이것이 사실임을 시사합니다. 따라서 이 megacli
패키지를 사용하면 Linux에서 RAID 컨트롤러를 제어할 수 있습니다.
오늘날 Fedora 버전의 경우 이를 어디서 찾을 수 있는지는 여전히 의문입니다. 살펴보세요https://hwraid.le-vert.net~을 위한메가RAID SAS아니면 아마도,메가레이드소프트웨어를 위해.
소프트웨어에는 작은 인라인 알림(run megacli -h
)이 있으며 이에 대한 설명도 있습니다.MegaRAID SAS 소프트웨어 사용자 가이드당신이 얻을 수있는 것브로드컴(LSI를 구입한 Avago를 구입한 사람). 또한 인터넷에는 치트 시트도 있습니다.
예를 들어 진단 정보를 얻는 것부터 시작할 수 있습니다.
megacli -AdpAllInfo -aALL
megacli -AdpPR -info -aALL
megacli -LdPdInfo -aALL
megacli -AdpBbuCmd -GetBbuStatus -aALL
megacli -AdpEventLog -GetEventLogInfo -aALL
해당 명령은 각각 다음을 수행합니다.
- 컨트롤러의 상태 및 일반 경고 가져오기(결함이 있는 장치 수 포함)
- 순회 읽기 작업 상태 가져오기(모든 장치를 주기적으로 읽어 결함이 있는 장치를 조기에 감지)
- 논리 디스크 및 해당 구성 요소 물리 디스크 가져오기그들의 지위와 함께. 장애가 발생한 디스크가 있는 경우 어떤 디스크와 어떤 슬롯에 있는지 확인할 수 있습니다.
- 캐시 배터리 상태 가져오기
- 어댑터 이벤트 로그를 가져옵니다. 이는 문제가 언제, 어떤 상황에서 감지되었는지 정확히 파악하는 데 도움이 될 수 있습니다.
RAID가 있다고 해서 디스크와 어레이의 상태를 모니터링할 수 있는 것은 아닙니다. RAID는 적절하게 모니터링하고 유지 관리하는 경우에만 가동 중지 시간을 방지하는 데 도움이 됩니다. smartmontools
일부 하드웨어 RAID 컨트롤러 뒤에서도 디스크를 모니터링할 수 있습니다. 그걸 써!
이제 "작동하면 건드리지 마세요", "고장나지 않으면 고치지 마세요"라는 진언을 잊어야 할 때입니다. 이는 빠르게 진화하는 세계와는 관련이 없습니다. 이것을 고려하십시오: 이전 버전의 OS~이다오래되었기 때문에 이미 깨졌습니다. 유능한 관리자~ 할 것이다"깨지지 않은" 것처럼 보이는 시스템을 수정하여 손상되지 않도록 합니다.
더 나쁜 것은 Fedora와 같은 오래된(10년) LTS가 아닌 시스템이 심하게 손상되었다는 것입니다. 이러한 배포판에서 비즈니스에 중요한 모든 것을 호스팅한다는 아이디어는 의도적으로 깨졌습니다. CentOS(10년 전 LTS였으며 현재는 대신 Oracle Linux, AlmaLinux 또는 Rocky Linux를 사용하게 됨)라면 그렇지 않습니다.저것나쁘지만 Fedora는 항상 프로덕션 서버에 부적절한 선택이었습니다. 그래서 2년만 되어도 교체해야 했습니다.
그리고 하드웨어 관리 도구( 등)를 항상 설치하는 것이 megacli
좋습니다 ipmiutil
. 언제 필요할지 알 수 없으며, 이미 사용할 수 없게 될 수도 있으므로 미리 짚을 깔아 두십시오.