디스크 문제: irq_stat 0x20000000, 호스트 버스 오류

디스크 문제: irq_stat 0x20000000, 호스트 버스 오류

NVMe 디스크에서 SATA 7200rpm HDD 디스크로 대용량 파일(50GB 이상)을 복사할 때 완전히 패치된 Ubuntu 20.04의 로그에 다음 오류가 표시됩니다.

Aug 08 00:45:59 host kernel: ata6.00: exception Emask 0x20 SAct 0x0 SErr 0x0 action 0x6 frozen
Aug 08 00:45:59 host kernel: ata6.00: irq_stat 0x20000000, host bus error
Aug 08 00:45:59 host kernel: ata6.00: failed command: WRITE DMA EXT
Aug 08 00:45:59 host kernel: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 tag 23 dma 4096 out
                                    res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (host bus error)
Aug 08 00:45:59 host kernel: ata6.00: status: { DRDY }
Aug 08 00:45:59 host kernel: ata6: hard resetting link
Aug 08 00:46:00 host kernel: ata6: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Aug 08 00:46:00 host kernel: ata6.00: configured for UDMA/133
Aug 08 00:46:00 host kernel: ata6: EH complete

ata6.00기록 중인 디스크입니다.
문제가 간헐적으로 발생합니다. 때로는 24시간 동안 나타나지 않을 때도 있고, 때로는 한 시간에 두어 번 나타나기도 합니다. 디스크가 복구되는 경우가 많지만 때로는 파일 시스템이 손상되어 마운트 해제하고 복구(가능한 경우)한 후 다시 마운트해야 하는 경우도 있습니다.

내가 시도한 것:

  1. 저는 3가지 다른 브랜드의 HDD를 사용해 보았습니다. 모두 동일한 문제가 있습니다.
  2. 하드웨어 문제가 의심되었습니다. 마더보드와 SATA 케이블을 교체했습니다. 이 중 어느 것도 도움이 되지 않았습니다.
  3. 동일한 구성을 가진 다른 서버가 있습니다. 거기에서는 문제가 발생하지 않습니다. 동일한 작업량.
  4. 완전히 다른 구성(Intel과 AMD)을 가진 또 다른 서버가 있습니다. 거기에서 문제가 발생합니다. 동일한 작업량.
  5. 를 통해 NCQ를 비활성화했습니다 echo 1 > /sys/block/sda/device/queue_depth. 도움이 되지 않았습니다.

아이디어가 부족해요...
이것들은 모두 데이터 센터급 구성 요소입니다. 제가 취한 조치를 고려하면 하드웨어 제조상의 결함은 아닌 것으로 보입니다.
소프트웨어/OS/BIOS와 관련이 있을 수 있습니까?
또 무엇을 시도해야 할까요?

답변1

아마도 이것은 작동 온도의 문제일까요? 디스크가 지속적으로 사용됨에 따라 디스크의 물리적 위치와 열 손실 대비 열 이득 비율이 너무 높아져 불규칙한 동작이 발생합니까?

귀하와 같은 최신 커널에서는 드라이브 온도를 다음 경로의 sysfs에 넣을 수 있습니다.

/sys/class/hwmon/*

drivetemp모듈이 로드되어 있는지 확인하십시오 modprobe drivetemp.

여기에서 파일을 모니터링하고 대용량 파일 복사를 다시 시작하는 것을 고려할 수 있습니다. 커널 문서여기이러한 파일을 해석하는 방법에 대한 표시를 제공합니다.

여기에는 작동 최소/최대 온도와 같은 유용한 값이 포함되어 있으며 일부 드라이버는 오류 발생 시 트리거되는 칩 종속 경보인 경보 표시기도 제공할 수 있습니다.

답변2

Ubuntu 21.04로 업그레이드하면 해결되는 것 같습니다. 그래도 이유는 모르겠습니다. 이제 ATA 문제 없이 서버가 안정적으로 실행됩니다.

관련 정보