FreeNAS: ZFS 어레이는 여러 드라이브를 '제거'합니다.

2024-11-1 • tag-icon

여기서 약간의 놀라운 상황이 발생했습니다. 누군가가 내가 무슨 일이 일어나고 있는지 알아낼 수 있도록 도와주길 바랍니다.

배경

저는 약 5년 전에 6x 8TB 디스크 RAID-Z2 어레이로 시작하여 백업 및 저장을 위해 FreeNAS를 실행하는 ZFS 서버를 구축했습니다. 이것은 오늘날까지 계속해서 잘 작동하고 있습니다. 장치에는 cifs 공유를 제공하는 것 이상의 추가 역할이 없습니다.

서버는 대부분의 시간을 오프라인에서 보내며(전력 소모가 크기 때문에) 때때로 백업, 파일 복사, 볼륨 스크러빙 등을 수행하기 위해 전원을 켭니다.

몇 년 전 저는 이 설정을 (계획대로) RAID Z2의 추가 디스크 6개로 확장하기로 결정했습니다. 첫 번째와 동일한 하드웨어에 연결된 이 어레이는 이제 몇 개의 개별 디스크를(한 번에 하나씩) '제거'했으며 이를 교체했습니다. 이 디스크는 모두 표면 스캔을 통과하므로 ZFS와 일종의 비호환성이 있다고 가정했습니다.

제거된 드라이브

지난 주에 다시 전원을 켰는데 갑자기 두 개의 드라이브를 제거하기로 결정했습니다. 이것이 볼륨 손실 없이 손실될 수 있는 최대값이므로 즉시 두 개의 새 제품을 주문하고 Western Digital Data Lifeguard로 전체 읽기 테스트를 수행하고(둘 다 통과) 이전 제품을 교체했습니다. 어레이가 다시 실버화되어 'HEALTHY'라는 라벨이 다시 지정되었습니다. 제거된 드라이브도 DLG로 테스트했는데 놀랍게도 통과했습니다. 리실버링이 완료된 후 이 볼륨에 대한 백업을 계속 실행했습니다.

문제

방금 6개의 드라이브 중 4개가 제거되어 볼륨이 DEGRADED가 아닌 UNAVAILABLE이 된 것을 확인했습니다. 여기에는 새 드라이브 2개와 다른 드라이브 2개가 포함됩니다. 그 중 하나는 약 5일 전 일시적으로 문제를 일으켰으나 저절로 회복된 것 같습니다. 네 번째로 제거된 것은 지금까지 문제 없이 작동되었던 것 같습니다.

내 질문은 다음과 같습니다무엇이 이런 일을 일으켰을까요?(물론 볼륨을 복원하고 마지막으로 이런 일이 다시 발생하지 않도록 하려면 어떻게 해야 합니까?)

제가 조사하고 있는 몇 가지 방법이 있습니다. 이에 대한 의견을 보내주시면 감사하겠습니다. :)

힘: 강압에 의해 이런 일이 발생했는데, 이것이 전원 문제가 아닐까 궁금합니다. PSU는 Seasonic G-Series G-550W PCGH-Edition으로 충분합니다(HDD는 추가로 엇갈린 전원 공급 iirc에 있음). 이에 반대되는 점은 두 어레이가 일반적으로 동시에 스크러빙되고 현재 사용할 수 없는 볼륨에서 두 개의 드라이브를 리실버링하는 것이 문제 없이 완료된다는 것입니다. 그리고 며칠 전에 대용량 파일 몇 개를 첫 번째 어레이에 복사했는데, 이것도 문제가 발생하지 않았습니다. 하나의 6x8TB 어레이가 강박 속에서도 건강하게 유지될 수 있다면 왜 다른 어레이는 동일한 상황에서 건강을 유지할 수 없겠습니까? 동시에 스트레스를 받지 않았으며 두 볼륨 모두에 문제가 없었던 오랜 기간이 있었습니다.

온도: 가장 문제가 되는 두 개의 드라이브는 기본 드라이브 베이 뒤에 있는 두 번째 드라이브 베이에 있습니다. 여기에 도달하는 공기의 온도는 높아지지만 두 번째 베이 뒤에 공기를 적극적으로 빨아들이는 팬도 추가했습니다(밀봉된 칸막이를 통해 이 베이 주변으로 특별히 유입됨). 더 높은 공기 흐름.

유감스럽게도 아직 HDD 온도 모니터링을 설정하지 못했습니다(제가 모르는 기본 기능이 없는 한). CPU 온도가 모니터링되지만 이와 관련하여 아무런 도움이 되지 않습니다. 문제가 되는 디스크도 보고 개요에서 사라져서 당장은 I/O 기록도 볼 수 없습니다.

제어 장치: 두 번째 어레이는 Delock PCI Express SATA 컨트롤러에 연결됩니다. 이것이 아마도 데이터 처리량에 대처할 수 없는 것인지 궁금합니다. 이 경우에는 어떻게 테스트할 수 있는지 잘 모르겠습니다. 그리고 왜 4개의 드라이브가 제거되고 동일한 어레이에 있는 다른 2개의 드라이브가 지금 이 순간까지 계속해서 정상적으로 작동하는지 잘 모르겠습니다('온라인'으로 보고됨).

SATA 케이블: 이것들은 아직 테스트해야 하므로 미정입니다. 케이블은 깔끔하게 정리되어 있어 심하게 구부러지지는 않지만 시간이 지나면 케이블이 파손될 수 있습니다. 하지만 케이블 연결로 인해 같은 날 동일한 어레이에서 4개의 드라이브를 사용할 수 없게 될 가능성은 의심할 여지가 매우 낮습니다.

하드웨어:

메인보드: MSI C236M 워크스테이션(SATA 포트 6개 포함, 어레이 #1에서 사용 중)
CPU: 인텔 제온 E3-1275 v5
메모리: 킹스턴 KVR21E15D8K2 x2(ECC)
파워서플라이: Seasonic G-시리즈 G-550W PCGH-Edition
두 번째 컨트롤러: PCI Express x2 카드 잠금 해제 -> 내부 SATA III 10개 - LP
배열 #1(RAID-Z2의 6x 8TB, 현재 5년 동안 안정적으로 작동):
- WD80EFZX x3
- ST8000VN0002 x2
- ST8000DM002 x1
배열 #2(RAID-Z2에서는 6개의 8TB):
- WD80EFAX(문제 없음)
- ST8000VN0022(이전에 제거한 후 DLG를 통과했으며 현재 정상적으로 작동 중)
- WD80EFAX x2(기존 드라이브, 이제 제거됨)
- WD80EFZZ x2(새 교체 드라이브, 현재 제거됨)
- ST8000VN0022 x2(며칠 전에 제거되고 WD80EFZZ x2로 교체됨)

관련 정보