읽기/쓰기 2.6.32-22 서버에서 파일 손상(여러 커널에서 발생)

Question 1

내 직감으로는 이것이 하드웨어 문제일 가능성이 있고 열과 관련이 있을 수 있음을 알려줍니다(일부 런타임 이후에 나타남). 사우스브리지나 관련 하드웨어에 문제가 있을 가능성이 높습니다.

사우스브리지에서 광범위한 트랜잭션 테스트를 실행하거나 단순히 마더보드를 교체하는 것을 고려해보세요.

OS가 안정적으로 유지되지만 임의의 IO 오류가 발생하면 일반적으로 CPU/메모리가 제외됩니다. 이러한 오류로 인해 OS가 충돌하고 다른 소프트웨어와 함께 연소되는 경향이 있기 때문입니다. 그러나 대부분의 커널은 부팅 시 디스크에서 읽혀지며 교체되지 않습니다. 따라서 Linux 시스템은 디스크에서 제대로 읽을 수 없더라도 놀라울 정도로 안정적입니다.

Answer

내 직감으로는 이것이 하드웨어 문제일 가능성이 있고 열과 관련이 있을 수 있음을 알려줍니다(일부 런타임 이후에 나타남). 사우스브리지나 관련 하드웨어에 문제가 있을 가능성이 높습니다.

사우스브리지에서 광범위한 트랜잭션 테스트를 실행하거나 단순히 마더보드를 교체하는 것을 고려해보세요.

OS가 안정적으로 유지되지만 임의의 IO 오류가 발생하면 일반적으로 CPU/메모리가 제외됩니다. 이러한 오류로 인해 OS가 충돌하고 다른 소프트웨어와 함께 연소되는 경향이 있기 때문입니다. 그러나 대부분의 커널은 부팅 시 디스크에서 읽혀지며 교체되지 않습니다. 따라서 Linux 시스템은 디스크에서 제대로 읽을 수 없더라도 놀라울 정도로 안정적입니다.

Question 2

호스트 자체에서 손상이 발생합니까, 아니면 게스트 시스템에서 발생합니까? qemu-kvm에는 대규모 가상 디스크의 데이터 손상을 초래하는 알려진 버그가 있습니다(참조:https://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665예를 들어)

Answer

호스트 자체에서 손상이 발생합니까, 아니면 게스트 시스템에서 발생합니까? qemu-kvm에는 대규모 가상 디스크의 데이터 손상을 초래하는 알려진 버그가 있습니다(참조:https://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665예를 들어)

Question 3

문제는 시간이 지남에 따라 점점 커지기 때문에 열적 측면을 조사해 볼 가치가 있다는 @pehrs의 의견에 동의합니다. 어떤 종류의 서버를 보유하고 있나요? 요즘 대부분의 랙마운트에는 하드웨어 상태를 모니터링하는 데 사용할 수 있는 많은 센서가 함께 제공됩니다. 확인해 보세요lm-센서. Dell 서버인 경우 DellOMSA패키지가 도움이 될 수 있습니다. 나는 다른 대형 기업들도 그들만의 독점 패키지를 가지고 있다고 확신합니다.

몇 가지 다른 아이디어도 던지는 것이 나을 수도 있습니다. 이는 잠시 후에 나타나는 문제에 대해 설명하신 시나리오와 실제로 일치하지 않지만 해를 끼칠 수는 없습니다.

오류 로그와 관련하여 디스크 또는 RAID 하위 시스템의 로그에 오류 메시지가 표시됩니까? 아니면 dmesg로? 리눅스소프트웨어-RAID HOTWO찾고 있는 오류 종류에 대한 정보가 있습니다. 불량 케이블과 같은 것이 드라이브의 SMART 자체 테스트에 표시되지 않을 수 있지만 기록된 일부 오류 메시지는 확실히 볼 수 있습니다.

RAID 구성이란 무엇입니까? /proc/mdstat에 아무것도 없나요? 예를 들어 서버에 3개 드라이브 RAID 5가 있고 드라이브 중 하나가 불량한 경우 문제가 발생할 수 있습니다.

또한 마더보드/SCSI 카드 등의 펌웨어 개정판을 확인하고 최신 버전인지 또는 수정된 디스크 I/O 관련 버그가 있는지 확인하세요.

Answer