Dell T610 서버에서 반복되는 디스크 오류

Dell T610 서버에서 반복되는 디스크 오류

중고 Poweredge T610을 구입하여 2x Hexcore Xeon X5675 프로세서와 96GB RAM으로 업그레이드했습니다. 처음에는 RAID-5 어레이(Perc6i 컨트롤러)에 WD 그린 2TB 드라이브 3개를 사용하고 가상 디스크에 Ubuntu 서버를 설치했습니다. 이 설정은 약 1년 동안 잘 작동했지만 문제가 발생하기 시작했습니다.

두 번째 어레이로 확장하기 위해 새 드라이브(4x 3TB WD 레드 드라이브)를 구입했습니다. 그러던 중 적어도 WD green은 좋은 선택이 아니라는 사실을 알게 되었기 때문에 새 VD에 일부 데이터를 백업하고 싶었습니다. Perc6i는 2TB가 넘는 드라이브를 좋아하지 않지만 3TB 중 처음 2TB를 인식한 것으로 나타났습니다. 아직 새 드라이브로 VD 설정을 시작하지 않았지만 3주 후에 WD 녹색 어레이가 손상되기 시작했습니다(처음에는 일부 소프트웨어에서 이상한 문자만 나타나고 부팅 순서가 손상될 때까지 더 심각한 문제가 발생함). 운 좋게도 도움을 줄 수 있는 전문 데이터 복구 서비스를 받게 되었습니다. Perc6i를 H700으로 교환하고 4개의 3TB WD 레드 드라이브로 구성된 RAID6 어레이를 설정했습니다(설정하기 전에 Dell 하드웨어 진단 확장 테스트로 테스트했는데 오류가 없었습니다). Ubuntu, 필요한 모든 소프트웨어, x2go 등을 설치하고 다시 실행하세요.

이제 이전과 같은 문제가 발생합니다. X2go에서는 명령줄에 문자 모양을 뱉어내는 동일한 소프트웨어(생물정보학 artemis 패키지)로 시작하고 다시 원점으로 돌아가는 것 같습니다. 캐디의 모든 상태 LED는 계속 녹색, 즉 온라인 상태입니다. 최소한 시스템이 인식하는 예상되는 오류는 없습니다.

문제가 무엇인지 궁금해지기 시작했습니다.

내가 생각하지 않는 것은 다음과 같습니다. -기본 디스크 오류(다시 말하지만!), 드라이브가 새 제품이었기 때문에 확장된 테스트에서 불량 섹터가 없었고 전원 켜짐 시간이 전혀 없었습니다. - 첫 번째 재해 이후 Perc6i 컨트롤러를 H700으로 교체했으며 문제가 되지 않아야 합니다.

평가하는 데 도움이 필요한 것: -백플레인/케이블 문제? (H700 컨트롤러에는 내 케이스에 맞지 않는 다른 서버 유형용 케이블이 함께 제공되었습니다. 다른 SATA6 케이블을 사용하여 컨트롤러를 백플레인에 연결했습니다.) 그런데 드라이브는 이전의 실패한 드라이브와 동일한 베이에 있습니다. 원래 Dell SATA 케이블이 거기에 연결되어 있습니다.

-마더보드 문제? -CPU 또는 RAM 문제? -전원 공급 장치(전압 피크??)

이전에 비슷한 문제를 겪은 사람이 있습니까? 여기에 도움을 주시면 대단히 감사하겠습니다. 안타깝게도 서버(물리적 및 네트워크 모두)에 액세스하기 전에 2주 동안 자리를 비울 수 있었습니다. 이 문제는 로컬 네트워크의 서버에서 작업하는 아내가 "보고"했습니다(그러나 불행하게도 그럴 수는 없습니다). 문제 해결에 도움이 될 수 있습니다).


예, 문제 없이 전체 Dell 하드웨어 진단 절차를 실행했습니다. 드라이브 중 하나만 결함이 있는 블록으로 감지되었지만 RAID 5 어레이를 재구축할 수 없었으므로 데이터 복구 전문가가 되었습니다. 다른 하드웨어는 다 괜찮았는데

한 지점에서 테스트를 통과하고 다른 지점에서 실패할 수 있는 결함 있는 접촉과 같은 일관되지 않은 문제가 어디에서나 있을 수 있는지 궁금합니다. 또는 테스트가 모든 시나리오를 다루지 않는 경우...

답변1

경험상 램 손상 문제처럼 들립니다. 가장 먼저 시도해 볼 것은 메모리 진단 도구입니다. Dell에서는 다운로드를 통해 사용할 수 있습니다.

오류가 발견되지 않으면 모든 하드웨어를 가져와 필요한 최소 수준으로 낮추고 문제가 나타날 때까지 다시 추가합니다. 시간이 많이 소요되지만 때로는 진단 결과가 아무것도 표시되지 않는 경우 유일한 방법입니다. 분명히 하드 드라이브로는 이 작업을 수행하기 어렵지만 CPU와 RAM을 사용하면 이 작업을 수행할 수 있습니다. 한 번에 하나씩 다시 추가하는 것을 잊지 마세요. 그렇지 않으면 어느 것이 탓인지 알 수 없게 됩니다.

또 다른 제안은 베어메탈에 설치하는 대신 하이퍼바이저를 사용하여 가상 머신을 생성하는 것입니다. 이렇게 하면 오류 발생 시 기능을 훨씬 쉽게 복원할 수 있습니다. 또한 애플리케이션을 설치하기 전에 백업 체제를 설정하면 데이터 복구 서비스가 다시 필요하지 않게 됩니다.

답변2

불행? 다른 새 컴퓨터에서 HDD를 테스트하여 현재 상태를 확인하세요.

T610은 9년 된 것과 같다는 점을 명심하세요. 솔직히 현재 데스크탑이 T610보다 빠를 것이라고 생각합니다.

드라이브 펌웨어가 영향을 미칠 수 있지만 어레이는 이를 외부 디스크로 표시합니다. 한 번에 모두 변경했다는 사실이 더 좋습니다. 바닐라 드라이브가 혼합된 펌웨어가 있는 Dell 드라이브는 없습니다. 컨트롤러는 이를 허용하지 않습니다.

디스크의 펌웨어를 사용하면 컨트롤러가 디스크에 고급 기능을 수행할 수 있으며, 일반 펌웨어가 포함된 바닐라 디스크를 사용하는 경우 어레이는 정상적으로 작동합니다.

귀하의 어레이가 감지되었다는 사실은 컨트롤러가 이를 보고 사용할 수 있다고 생각하게 만듭니다. 그래서 내가 처음에 불운을 언급한 거야..

관련 정보