SMART 오류의 치명성은 무엇입니까?

SMART 오류의 치명성은 무엇입니까?

12개의 2TB 드라이브가 포함된 RAID 5의 40TB 스토리지 서버가 있습니다. 드라이브 하나는 핫스페어로 작동하며 하드웨어 RAID 컨트롤러로 관리됩니다.

어떤 이유에서인지 세 개의 드라이브가 동시에 고장난 것 같습니다. 하나는 완전히 실패한 것으로 보이며 두 개는 SMART 오류를 표시합니다. 핫 스페어는 어레이의 일부로 변환되지 않은 것으로 보이지만 어쨌든 자동으로 발생했는지는 확실하지 않습니다.

문제는 두 드라이브를 다시 시작하고 어레이를 재구축한 다음 해당 드라이브가 결국 실패하기 전에 해당 데이터를 저장할 수 있느냐는 것입니다. SMART 오류에 대해 내가 아는 바는 그것이 완전한 실패가 아니라 단지 예측된 실패라는 것입니다.

분명히 이러한 드라이브는 곧 교체해야 하지만 완전히 고장난 것입니까, 아니면 구할 수 있습니까?

답변1

완전히 고장난 드라이브 하나를 최대한 빨리 교체해야 하며 어레이는 자체적으로 재구축될 수 있습니다. 이 연구에 따르면 SMART 오류가 발생하는 드라이브는 SMART 오류가 발생하지 않는 드라이브보다 오류가 발생할 가능성이 더 높습니다.https://static.googleusercontent.com/media/research.google.com/en//archive/disk_failures.pdf. 또한 교체해야 하며 중요한 사용 사례에 다시는 사용하지 않아야 합니다.

동일한 하드 드라이브를 사용한다고 가정하면, 저장 장치의 서비스 유지 기간에 따라 개수에 따라 여러 개의 예비 부품을 구입하는 것이 좋습니다.

제 생각에는 RAID5는 1TB보다 큰 드라이브 어레이에는 좋은 옵션이 아닙니다. RAID5는 재구축하는 데 시간이 오래 걸리고 재구축하는 동안 성능이 저하됩니다. RAID5는 하나의 오류에 대해서만 보호하기 때문에 어레이에 많은(12) 개의 디스크가 있는 경우에도 별로 유용하지 않습니다. 두 번째 실패로 인해 전체 어레이가 망가집니다.

향후 빌드에서는 대신 RAID10을 사용하는 것이 좋습니다. RAID10을 사용하면 보다 일관되고 빠른 성능을 제공하는 동시에 더 나은 내결함성을 제공할 것입니다.

답변2

RAID 5에서는 어레이에서 1개의 디스크 오류가 허용되는 것으로 알고 있습니다. 핫스페어는 요청 시 그에 따라 구성됩니다. 컨트롤러/GUI 또는 사용 중인 프런트 엔드가 이 작업을 수행하는 데 사용됩니다. RAID를 재구축하는 데 걸리는 시간은 사용 중인 데이터 양에 따라 다릅니다. 핫 스페어가 구축되면 이론적으로 RAID는 정상으로 돌아갑니다. 이번에는 SMART 오류가 있는 다른 드라이브 중 하나를 오프라인으로 전환하고 핫 스페어 프로세스를 사용하여 재구축합니다. 오류가 있는 모든 HDD가 교체될 때까지 완료하세요. SMART 오류가 표시된 중요한 데이터가 있는 디스크를 교체하겠습니다. 앞으로는 RAID 6을 사용할 수 있습니다. 물론 모든 데이터를 이동하여 백업하고 어레이를 재구축한 후 다시 넣어야 합니다. RAID 6은 더 많은 디스크 오류를 허용하지만 쓰기 속도에 약간의 영향을 미칩니다.

관련 정보