RAID / Fedora 14에서 **매우** 느린 쓰기 속도 진단

RAID / Fedora 14에서 **매우** 느린 쓰기 속도 진단

우리는 Embedded Linux용 빌드 서버와 Subversion 서버로 작동하는 Fedora 14를 실행하는 Dell PowerEdge T110을 보유하고 있습니다.

최근에는 속도가 매우 느려져 새 날이 시작되기 전에 야간 백업을 완료하지 못했습니다.

[편집] 감사합니다 User9517 - 로그를 확인했는데 MRMON(Mega Raid Monitor)에서 여러 메시지가 왔습니다. 이러한 메시지 해석, 다음 단계 및 교체가 필요한 드라이브를 결정하는 방법에 대한 지침이 도움이 될 것입니다.

Dec 20 09:02:32 localhost MR_MONITOR[2153]: <MRMON096> Controller ID:  0   PD Predictive failure:  #012    -:-:2
Dec 20 09:06:44 localhost MR_MONITOR[2153]: <MRMON113> Controller ID:  0   Unexpected sense:   PD  #012    =   -:-:2No defect spare location available,   CDB   =    0x28 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00    ,   Sense   =    0x70 0x00 0x04 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x32 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00
Dec 20 09:09:44 localhost MR_MONITOR[2153]: <MRMON096> Controller ID:  0   PD Predictive failure:  #012    -:-:2

[/편집하다]

결함을 추적하기 위해 도움을 찾고 있습니다. 저는 확실히 이 분야의 전문가는 아닙니다. 원래 시스템을 설정한 사람은 더 이상 여기에 없습니다.

야간 백업은 약 6GB의 tgz 파일이며 오후 8시에 시작됩니다. 이 작업은 오전 4시경에 완료되었습니다(외부 드라이브로 복사 포함). 주간 백업은 약 45GB이며, 금요일 오후 8시에 시작해서 토요일 오전 11시에 완료되었습니다.

백업 외에도 백업 프로세스가 실행되지 않는 경우에도 머신의 응답 속도가 눈에 띄게 느립니다.

내가 지금까지 수집한 내용은 다음과 같습니다.

4개의 Seagate 1TB 드라이브가 연결된 RAID 컨트롤러 DELL PERC H200L이 있습니다(ST31000424SS). 나생각하다RAID 10으로 설정되어 있지만 이 컨트롤러의 구성에 액세스하는 방법을 모르겠습니다. 나는 4개의 드라이브가 있기 때문에 RAID 10을 믿고 있으며 vgdisplay는 4개의 드라이브에 총 4TB 중 1.81TB가 할당된 것으로 표시합니다.

[root@fedorabox backup]# vgdisplay
  --- Volume group ---
  VG Name               vg_fedorabox2
  System ID
  Format                lvm2
  Metadata Areas        1
  Metadata Sequence No  8
  VG Access             read/write
  VG Status             resizable
  MAX LV                0
  Cur LV                5
  Open LV               5
  Max PV                0
  Cur PV                1
  Act PV                1
  VG Size               1.81 TiB
  PE Size               32.00 MiB
  Total PE              59263
  Alloc PE / Size       28480 / 890.00 GiB
  Free  PE / Size       30783 / 961.97 GiB

컴퓨터에서 다른 실제 드라이브를 볼 수 없으므로 부팅 파티션(/dev/sdb1)이 어떻게든 4개의 드라이브에서 분할되어 있는 것 같습니다.

(/dev/sda는 백업을 위한 외장 하드 드라이브입니다. 하지만 이는 문제가 되지 않습니다. 아침에 도착했을 때 /backup 파티션에서 백업이 계속 생성되고 있습니다. USB 연결 드라이브에 대한 복사가 완료되지 않았습니다. 시작됨)

[root@fedorabox backup]# df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/mapper/vg_fedorabox2-LogVol00
                      9.9G  5.2G  4.3G  55% /
tmpfs                 2.0G  932K  2.0G   1% /dev/shm
/dev/sdb1             504M   56M  423M  12% /boot
/dev/mapper/vg_fedorabox2-LogVol03
                      394G  221G  153G  60% /home
/dev/mapper/vg_fedorabox2-LogVol02
                       99G   29G   65G  32% /shared
/dev/mapper/vg_fedorabox2-LogVol01
                       30G   11G   18G  37% /usr
/dev/sda2             5.5T  2.6T  3.0T  47% /mnt/root/usbbackup2
/dev/mapper/vg_fedorabox2-LogVol04
                      345G  363M  327G   1% /backup

질문에서 말했듯이 쓰기 속도는매우느린:

[root@fedorabox backup]# dd if=/dev/zero of=/backup/tmp/test.out bs=512 count=32 oflag=dsync
32+0 records in
32+0 records out
16384 bytes (16 kB) copied, 40.382 s, 0.4 kB/s
[root@fedorabox backup]# dd of=/dev/null if=/backup/tmp/test.out bs=512 count=32 oflag=dsync
32+0 records in
32+0 records out
16384 bytes (16 kB) copied, 3.5087e-05 s, 467 MB/s

/dev/sg2부터 /dev/sg5까지 smartctl을 사용하여 4개의 드라이브에 액세스할 수 있습니다. 출력은 다음과 같습니다. 나는 정상적인 독서가 무엇인지 모른다.오류 수정여기에는 두 번째와 네 번째 드라이브(/dev/sg3, sg5)가 나열되어 있습니다.수정되지 않은 오류읽고 확인하기 위해.

다음 단계에 대한 조언 - 수정되지 않은 오류가 정상인가요 아니면 걱정스러운가요? 이것이 속도 저하의 원인입니까, 아니면 제가 살펴보아야 할 다른 것이 있습니까?

드라이브 교체 방법과 RAID 구성에 액세스하는 방법에 대한 조언이 있습니까?

[root@fedorabox /]# smartctl -a /dev/sg2
smartctl 5.40 2010-10-16 r3189 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

Device: SEAGATE  ST1000NM0001     Version: PS06
Serial number: Z1N2LEDW
Device type: disk
Transport protocol: SAS
Local Time is: Mon Dec 19 12:10:20 2022 EST
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]

Current Drive Temperature:     37 C
Drive Trip Temperature:        68 C
Manufactured in week 33 of year 2012
Specified cycle count over device lifetime:  10000
Accumulated start-stop cycles:  71
Elements in grown defect list: 36
Vendor (Seagate) cache information
  Blocks sent to initiator = 2805494200
  Blocks received from initiator = 1072424796
  Blocks read from cache and sent to initiator = 19110177
  Number of read and write commands whose size <= segment size = 826634038
  Number of read and write commands whose size > segment size = 5264167
Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 11183.37
  number of minutes until next internal SMART test = 43

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   3996823525        0         0  3996823525          0        130.509           0
write:         0        0         0         0          0      62619.327           0
verify: 1594450892        0         0  1594450892          0      51866.259           0

Non-medium error count:        9

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background short  Completed                  32   11182                 - [-   -    -]

Long (extended) Self Test duration: 11100 seconds [185.0 minutes]
[root@fedorabox /]# smartctl -a /dev/sg3
smartctl 5.40 2010-10-16 r3189 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

Device: SEAGATE  ST31000424SS     Version: KS68
Serial number: 9WK3JSJV
Device type: disk
Transport protocol: SAS
Local Time is: Mon Dec 19 12:10:44 2022 EST
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]

Current Drive Temperature:     37 C
Drive Trip Temperature:        68 C
Manufactured in week 06 of year 2011
Specified cycle count over device lifetime:  10000
Accumulated start-stop cycles:  81
Specified load-unload count over device lifetime:  300000
Accumulated load-unload cycles:  81
Elements in grown defect list: 21
Vendor (Seagate) cache information
  Blocks sent to initiator = 1872227385
  Blocks received from initiator = 3603107317
  Blocks read from cache and sent to initiator = 53905772
  Number of read and write commands whose size <= segment size = 1041622488
  Number of read and write commands whose size > segment size = 5288254
Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 77337.02
  number of minutes until next internal SMART test = 16

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   1454822558        3         0  1454822561   1454822585       2465.838          21
write:         0        0         0         0          0      64012.923           0
verify: 2113323340      143         0  2113323483   2113323510      49057.393          17

Non-medium error count:        4

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background short  Completed                  16     643                 - [-   -    -]
# 2  Background short  Completed                  16       5                 - [-   -    -]
# 3  Background long   Completed                  16       5                 - [-   -    -]

Long (extended) Self Test duration: 11100 seconds [185.0 minutes]
[root@fedorabox /]# smartctl -a /dev/sg4
smartctl 5.40 2010-10-16 r3189 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

Device: SEAGATE  ST31000424SS     Version: KS68
Serial number: 9WK3H8DW
Device type: disk
Transport protocol: SAS
Local Time is: Mon Dec 19 12:11:02 2022 EST
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]

Current Drive Temperature:     38 C
Drive Trip Temperature:        68 C
Manufactured in week 06 of year 2011
Specified cycle count over device lifetime:  10000
Accumulated start-stop cycles:  76
Specified load-unload count over device lifetime:  300000
Accumulated load-unload cycles:  76
Elements in grown defect list: 1
Vendor (Seagate) cache information
  Blocks sent to initiator = 1437832391
  Blocks received from initiator = 3080050213
  Blocks read from cache and sent to initiator = 2689371046
  Number of read and write commands whose size <= segment size = 3306395247
  Number of read and write commands whose size > segment size = 5018225
Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 77337.17
  number of minutes until next internal SMART test = 58

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   1514637706     1007         0  1514638713   1514638713    1576907.538           0
write:         0        0         0         0          0      61240.330           0
verify: 1697580124       32         0  1697580156   1697580157      48889.638           0

Non-medium error count:       27

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background short  Completed                  16      18                 - [-   -    -]
# 2  Background short  Completed                  16       5                 - [-   -    -]
# 3  Background long   Completed                  16       5                 - [-   -    -]

Long (extended) Self Test duration: 11100 seconds [185.0 minutes]
[root@fedorabox /]# smartctl -a /dev/sg5
smartctl 5.40 2010-10-16 r3189 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

Device: SEAGATE  ST31000424SS     Version: KS68
Serial number: 9WK3FCZ6
Device type: disk
Transport protocol: SAS
Local Time is: Mon Dec 19 12:11:41 2022 EST
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]

Current Drive Temperature:     38 C
Drive Trip Temperature:        68 C
Manufactured in week 06 of year 2011
Specified cycle count over device lifetime:  10000
Accumulated start-stop cycles:  81
Specified load-unload count over device lifetime:  300000
Accumulated load-unload cycles:  81
Elements in grown defect list: 4096
Vendor (Seagate) cache information
  Blocks sent to initiator = 923606853
  Blocks received from initiator = 3074269061
  Blocks read from cache and sent to initiator = 3237322768
  Number of read and write commands whose size <= segment size = 3044372010
  Number of read and write commands whose size > segment size = 5024782
Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 77336.67
  number of minutes until next internal SMART test = 53

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   2058067359   277563         0  2058344922   2058345511    1420772.201         555
write:         0        0         0         0          0      62186.800           0
verify: 2750944424     2205         0  2750946629   2750946631      50834.359           1

Non-medium error count:      167

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background short  Completed                  16     643                 - [-   -    -]
# 2  Background short  Completed                  16       5                 - [-   -    -]
# 3  Background long   Completed                  16       5                 - [-   -    -]

Long (extended) Self Test duration: 11100 seconds [185.0 minutes]

답변1

Dell PERC는 기본적으로 LSI MegaRAID SAS로 브랜드가 변경되었습니다.

lspci -k어떤 드라이버를 사용하는지 확인 하세요 . 그것은 가능성이 높습니다 megaraid_sas. MegaRAID Monitor를 성공적으로 사용하고 있다는 사실은 이것이 사실임을 시사합니다. 따라서 이 megacli패키지를 사용하면 Linux에서 RAID 컨트롤러를 제어할 수 있습니다.

오늘날 Fedora 버전의 경우 이를 어디서 찾을 수 있는지는 여전히 의문입니다. 살펴보세요https://hwraid.le-vert.net~을 위한메가RAID SAS아니면 아마도,메가레이드소프트웨어를 위해.

소프트웨어에는 작은 인라인 알림(run megacli -h)이 있으며 이에 대한 설명도 있습니다.MegaRAID SAS 소프트웨어 사용자 가이드당신이 얻을 수있는 것브로드컴(LSI를 구입한 Avago를 구입한 사람). 또한 인터넷에는 치트 시트도 있습니다.

예를 들어 진단 정보를 얻는 것부터 시작할 수 있습니다.

megacli -AdpAllInfo -aALL
megacli -AdpPR -info -aALL
megacli -LdPdInfo -aALL
megacli -AdpBbuCmd -GetBbuStatus -aALL
megacli -AdpEventLog -GetEventLogInfo -aALL

해당 명령은 각각 다음을 수행합니다.

  • 컨트롤러의 상태 및 일반 경고 가져오기(결함이 있는 장치 수 포함)
  • 순회 읽기 작업 상태 가져오기(모든 장치를 주기적으로 읽어 결함이 있는 장치를 조기에 감지)
  • 논리 디스크 및 해당 구성 요소 물리 디스크 가져오기그들의 지위와 함께. 장애가 발생한 디스크가 있는 경우 어떤 디스크와 어떤 슬롯에 있는지 확인할 수 있습니다.
  • 캐시 배터리 상태 가져오기
  • 어댑터 이벤트 로그를 가져옵니다. 이는 문제가 언제, 어떤 상황에서 감지되었는지 정확히 파악하는 데 도움이 될 수 있습니다.

RAID가 있다고 해서 디스크와 어레이의 상태를 모니터링할 수 있는 것은 아닙니다. RAID는 적절하게 모니터링하고 유지 관리하는 경우에만 가동 중지 시간을 방지하는 데 도움이 됩니다. smartmontools일부 하드웨어 RAID 컨트롤러 뒤에서도 디스크를 모니터링할 수 있습니다. 그걸 써!

이제 "작동하면 건드리지 마세요", "고장나지 않으면 고치지 마세요"라는 진언을 잊어야 할 때입니다. 이는 빠르게 진화하는 세계와는 관련이 없습니다. 이것을 고려하십시오: 이전 버전의 OS~이다오래되었기 때문에 이미 깨졌습니다. 유능한 관리자~ 할 것이다"깨지지 않은" 것처럼 보이는 시스템을 수정하여 손상되지 않도록 합니다.

더 나쁜 것은 Fedora와 같은 오래된(10년) LTS가 아닌 시스템이 심하게 손상되었다는 것입니다. 이러한 배포판에서 비즈니스에 중요한 모든 것을 호스팅한다는 아이디어는 의도적으로 깨졌습니다. CentOS(10년 전 LTS였으며 현재는 대신 Oracle Linux, AlmaLinux 또는 Rocky Linux를 사용하게 됨)라면 그렇지 않습니다.저것나쁘지만 Fedora는 항상 프로덕션 서버에 부적절한 선택이었습니다. 그래서 2년만 되어도 교체해야 했습니다.

그리고 하드웨어 관리 도구( 등)를 항상 설치하는 것이 megacli좋습니다 ipmiutil. 언제 필요할지 알 수 없으며, 이미 사용할 수 없게 될 수도 있으므로 미리 짚을 깔아 두십시오.

관련 정보