전주곡:

Question 1

중요한 프로덕션 환경에서는 "SATA를 사용하지 마십시오"라고 말하기는 싫지만 이런 상황을 자주 목격했습니다. SATA 드라이브는 일반적으로 귀하가 설명하는 듀티 사이클에 적합하지 않습니다.24x7 작동에 특화된 드라이브귀하의 설정에서. 내 경험에 따르면 SATA 드라이브는 예측할 수 없는 방식으로 오류가 발생할 수 있으며, 이전처럼 RAID 1+0을 사용하는 경우에도 종종 전체 스토리지 배열에 영향을 미칠 수 있습니다. 때때로 전체 버스를 멈출 수 있는 방식으로 드라이브가 실패합니다. 한 가지 주목할 점은 설정에서 SAS 확장기를 사용하고 있는지 여부입니다. 이는 나머지 디스크가 드라이브 오류로 인해 영향을 받는 방식에 차이를 만들 수 있습니다.

하지만 함께 가는 것이 더 합리적이었을 수도 있습니다.미드라인/니어라인(7200RPM) SAS 드라이브대 SATA. SATA에 비해 약간의 가격 프리미엄이 있지만 드라이브는 더 예측 가능하게 작동/고장됩니다. SAS 인터페이스/프로토콜의 오류 수정 및 보고 기능은 SATA 세트보다 더 강력합니다. 그래서 드라이브를 사용해도메카닉이 똑같은 사람, SAS 프로토콜의 차이로 인해 드라이브 오류 시 경험했던 고통이 방지되었을 수 있습니다.

Answer

중요한 프로덕션 환경에서는 "SATA를 사용하지 마십시오"라고 말하기는 싫지만 이런 상황을 자주 목격했습니다. SATA 드라이브는 일반적으로 귀하가 설명하는 듀티 사이클에 적합하지 않습니다.24x7 작동에 특화된 드라이브귀하의 설정에서. 내 경험에 따르면 SATA 드라이브는 예측할 수 없는 방식으로 오류가 발생할 수 있으며, 이전처럼 RAID 1+0을 사용하는 경우에도 종종 전체 스토리지 배열에 영향을 미칠 수 있습니다. 때때로 전체 버스를 멈출 수 있는 방식으로 드라이브가 실패합니다. 한 가지 주목할 점은 설정에서 SAS 확장기를 사용하고 있는지 여부입니다. 이는 나머지 디스크가 드라이브 오류로 인해 영향을 받는 방식에 차이를 만들 수 있습니다.

하지만 함께 가는 것이 더 합리적이었을 수도 있습니다.미드라인/니어라인(7200RPM) SAS 드라이브대 SATA. SATA에 비해 약간의 가격 프리미엄이 있지만 드라이브는 더 예측 가능하게 작동/고장됩니다. SAS 인터페이스/프로토콜의 오류 수정 및 보고 기능은 SATA 세트보다 더 강력합니다. 그래서 드라이브를 사용해도메카닉이 똑같은 사람, SAS 프로토콜의 차이로 인해 드라이브 오류 시 경험했던 고통이 방지되었을 수 있습니다.

Question 2

단일 디스크가 어떻게 어레이를 다운시킬 수 있습니까? 대답은 그렇지 않아야 한다는 것입니다. 그러나 중단의 원인이 무엇인지에 따라 다릅니다. 디스크가 정상적인 방식으로 작동하지 않는다면 디스크를 내려서는 안 됩니다. 그러나 컨트롤러가 처리할 수 없는 "극단적인 경우" 방식으로 실패할 가능성이 있습니다.

이런 일이 일어나서는 안 된다고 생각하는 게 순진한 겁니까? 아니요, 그렇게 생각하지 않습니다. 이와 같은 하드웨어 RAID 카드는 대부분의 문제를 처리했어야 합니다.

그것을 방지하는 방법? 이와 같은 이상한 극단적인 경우는 예상할 수 없습니다. 이는 시스템 관리자의 일부입니다. 하지만 비즈니스에 영향을 미치지 않도록 복구 절차를 수행할 수 있습니다. 지금 이 문제를 해결하는 유일한 방법은 다른 하드웨어 카드를 사용하거나(아마도 원하는 작업이 아닐 수도 있음) 드라이브를 SATA 대신 SAS 드라이브로 변경하여 SAS가 더 강력한지 확인하는 것입니다. 또한 RAID 카드 공급업체에 연락하여 무슨 일이 일어났는지 알려주고 그들이 말하는 내용을 확인할 수도 있습니다. 결국 그들은 불안정한 드라이브 전자 장치의 모든 것을 전문적으로 아는 회사입니다. 적절한 사람과 대화할 수 있다면 드라이브 작동 방식과 안정성에 대한 더 많은 기술적 조언을 얻을 수 있습니다.

뭔가 놓친 게 있나요? 드라이브에 극단적인 오류가 발생했는지 확인하려면 어레이에서 드라이브를 꺼내십시오. 어레이 성능이 저하되지만 (성능 저하된 어레이 상태를 제외하고) 이상한 속도 저하 및 오류가 더 이상 있어서는 안 됩니다. 지금은 제대로 작동하는 것 같지만 디스크 읽기 오류가 있는 경우 가능한 한 드라이브를 교체해야 한다고 말씀하신 것입니다. 고용량 드라이브에는 때때로 다른 드라이브에 장애가 발생할 때까지 표시되지 않는 URE 오류(RAID 5를 실행하지 않는 가장 좋은 이유, 참고 사항)가 있을 수 있습니다. 그리고 해당 드라이브에서 극단적인 동작이 발생하는 경우 손상된 데이터가 어레이의 다른 드라이브로 마이그레이션되는 것을 원하지 않습니다.

Answer

단일 디스크가 어떻게 어레이를 다운시킬 수 있습니까? 대답은 그렇지 않아야 한다는 것입니다. 그러나 중단의 원인이 무엇인지에 따라 다릅니다. 디스크가 정상적인 방식으로 작동하지 않는다면 디스크를 내려서는 안 됩니다. 그러나 컨트롤러가 처리할 수 없는 "극단적인 경우" 방식으로 실패할 가능성이 있습니다.

이런 일이 일어나서는 안 된다고 생각하는 게 순진한 겁니까? 아니요, 그렇게 생각하지 않습니다. 이와 같은 하드웨어 RAID 카드는 대부분의 문제를 처리했어야 합니다.

그것을 방지하는 방법? 이와 같은 이상한 극단적인 경우는 예상할 수 없습니다. 이는 시스템 관리자의 일부입니다. 하지만 비즈니스에 영향을 미치지 않도록 복구 절차를 수행할 수 있습니다. 지금 이 문제를 해결하는 유일한 방법은 다른 하드웨어 카드를 사용하거나(아마도 원하는 작업이 아닐 수도 있음) 드라이브를 SATA 대신 SAS 드라이브로 변경하여 SAS가 더 강력한지 확인하는 것입니다. 또한 RAID 카드 공급업체에 연락하여 무슨 일이 일어났는지 알려주고 그들이 말하는 내용을 확인할 수도 있습니다. 결국 그들은 불안정한 드라이브 전자 장치의 모든 것을 전문적으로 아는 회사입니다. 적절한 사람과 대화할 수 있다면 드라이브 작동 방식과 안정성에 대한 더 많은 기술적 조언을 얻을 수 있습니다.

뭔가 놓친 게 있나요? 드라이브에 극단적인 오류가 발생했는지 확인하려면 어레이에서 드라이브를 꺼내십시오. 어레이 성능이 저하되지만 (성능 저하된 어레이 상태를 제외하고) 이상한 속도 저하 및 오류가 더 이상 있어서는 안 됩니다. 지금은 제대로 작동하는 것 같지만 디스크 읽기 오류가 있는 경우 가능한 한 드라이브를 교체해야 한다고 말씀하신 것입니다. 고용량 드라이브에는 때때로 다른 드라이브에 장애가 발생할 때까지 표시되지 않는 URE 오류(RAID 5를 실행하지 않는 가장 좋은 이유, 참고 사항)가 있을 수 있습니다. 그리고 해당 드라이브에서 극단적인 동작이 발생하는 경우 손상된 데이터가 어레이의 다른 드라이브로 마이그레이션되는 것을 원하지 않습니다.

Question 3

저는 전문가는 아니지만 RAID 컨트롤러와 스토리지 어레이에 대한 경험을 바탕으로 어둠 속에서 거친 촬영을 해보겠습니다.

디스크는 다양한 방식으로 실패합니다. 불행하게도 디스크는 성능에 심각한 영향을 주지만 RAID 컨트롤러는 오류로 간주하지 않는 방식으로 오류가 발생하거나 결함이 있을 수 있습니다.

디스크에 명백한 오류가 발생하는 경우 모든 RAID 컨트롤러 소프트웨어는 디스크의 응답 부족을 감지하고 풀에서 디스크를 제거하고 알림을 보내는 데 능숙해야 합니다. 그러나 여기서 무슨 일이 일어나고 있는지에 대한 내 추측은 디스크가 어떤 이유로 컨트롤러 측에서 오류를 유발하지 않는 비정상적인 오류를 겪고 있다는 것입니다. 따라서 컨트롤러가 영향을 받은 디스크에서 쓰기 플러시 또는 읽기를 수행할 때 다시 돌아오는 데 오랜 시간이 걸리고 결과적으로 전체 IO 작동이 중단되어 어레이가 중단됩니다. 어떤 이유로든 RAID 컨트롤러가 "아, 디스크 오류"가 발생하는 것만으로는 충분하지 않습니다. 아마도 데이터가 결국 다시 돌아오기 때문일 것입니다.

내 조언은 고장난 디스크를 즉시 교체하는 것입니다. 그 후, 귀하의 RAID 카드 구성을 살펴보고(3ware입니다. 꽤 좋다고 생각했습니다) 고장난 디스크가 무엇인지 알아봅니다.

추신: SMART를 선인장으로 가져오는 좋은 아이디어입니다.

Answer

저는 전문가는 아니지만 RAID 컨트롤러와 스토리지 어레이에 대한 경험을 바탕으로 어둠 속에서 거친 촬영을 해보겠습니다.

디스크는 다양한 방식으로 실패합니다. 불행하게도 디스크는 성능에 심각한 영향을 주지만 RAID 컨트롤러는 오류로 간주하지 않는 방식으로 오류가 발생하거나 결함이 있을 수 있습니다.

디스크에 명백한 오류가 발생하는 경우 모든 RAID 컨트롤러 소프트웨어는 디스크의 응답 부족을 감지하고 풀에서 디스크를 제거하고 알림을 보내는 데 능숙해야 합니다. 그러나 여기서 무슨 일이 일어나고 있는지에 대한 내 추측은 디스크가 어떤 이유로 컨트롤러 측에서 오류를 유발하지 않는 비정상적인 오류를 겪고 있다는 것입니다. 따라서 컨트롤러가 영향을 받은 디스크에서 쓰기 플러시 또는 읽기를 수행할 때 다시 돌아오는 데 오랜 시간이 걸리고 결과적으로 전체 IO 작동이 중단되어 어레이가 중단됩니다. 어떤 이유로든 RAID 컨트롤러가 "아, 디스크 오류"가 발생하는 것만으로는 충분하지 않습니다. 아마도 데이터가 결국 다시 돌아오기 때문일 것입니다.

내 조언은 고장난 디스크를 즉시 교체하는 것입니다. 그 후, 귀하의 RAID 카드 구성을 살펴보고(3ware입니다. 꽤 좋다고 생각했습니다) 고장난 디스크가 무엇인지 알아봅니다.

추신: SMART를 선인장으로 가져오는 좋은 아이디어입니다.

Question 4

어둠 속에서의 내 샷 :

드라이브 7에 오류가 발생했습니다. 사용할 수 없는 실패 창이 있습니다.
드라이브 8에도 '가벼운' 오류가 있습니다. 재시도해서 수정했습니다.
RAID10은 일반적으로 "여러 RAID1 쌍의 RAID0"입니다. 드라이브 7과 8은 동일한 쌍의 구성원입니까?

그렇다면 동일한 쌍에서 두 개의 디스크 오류가 발생하는 "일어나서는 안 되는" 사례에 도달한 것 같습니다. RAID10을 죽일 수 있는 거의 유일한 것입니다. 안타깝게도 모든 드라이브가 동일한 배송 로트에서 나온 경우 이런 일이 발생할 수 있으므로 동시에 수명이 다할 가능성이 약간 더 높습니다.

드라이브 7에 오류가 발생하는 동안 컨트롤러는 모든 읽기를 드라이브 8로 리디렉션했기 때문에 오류 재시도가 발생하면 엄청난 지연이 발생하여 작업이 눈에 띄게 중단되어 잠시 동안 성능이 저하되었습니다.

8번 드라이브가 아직 죽지 않은 것 같아 다행입니다. 따라서 데이터 손실 없이 문제를 해결할 수 있을 것입니다.

두 드라이브를 모두 변경하는 것부터 시작하고 케이블 연결을 확인하는 것을 잊지 마십시오. 느슨한 연결로 인해 이 문제가 발생할 수 있으며, 단단히 연결되지 않은 경우 인접한 드라이브에서 발생할 가능성이 더 높습니다. 또한 일부 멀티포트 카드에는 여러 개의 2포트 커넥터가 있습니다. 드라이브 7과 드라이브 8이 동일한 드라이브에 있는 경우 문제의 원인이 될 수 있습니다.

Answer

어둠 속에서의 내 샷 :

드라이브 7에 오류가 발생했습니다. 사용할 수 없는 실패 창이 있습니다.
드라이브 8에도 '가벼운' 오류가 있습니다. 재시도해서 수정했습니다.
RAID10은 일반적으로 "여러 RAID1 쌍의 RAID0"입니다. 드라이브 7과 8은 동일한 쌍의 구성원입니까?

그렇다면 동일한 쌍에서 두 개의 디스크 오류가 발생하는 "일어나서는 안 되는" 사례에 도달한 것 같습니다. RAID10을 죽일 수 있는 거의 유일한 것입니다. 안타깝게도 모든 드라이브가 동일한 배송 로트에서 나온 경우 이런 일이 발생할 수 있으므로 동시에 수명이 다할 가능성이 약간 더 높습니다.

드라이브 7에 오류가 발생하는 동안 컨트롤러는 모든 읽기를 드라이브 8로 리디렉션했기 때문에 오류 재시도가 발생하면 엄청난 지연이 발생하여 작업이 눈에 띄게 중단되어 잠시 동안 성능이 저하되었습니다.

8번 드라이브가 아직 죽지 않은 것 같아 다행입니다. 따라서 데이터 손실 없이 문제를 해결할 수 있을 것입니다.

두 드라이브를 모두 변경하는 것부터 시작하고 케이블 연결을 확인하는 것을 잊지 마십시오. 느슨한 연결로 인해 이 문제가 발생할 수 있으며, 단단히 연결되지 않은 경우 인접한 드라이브에서 발생할 가능성이 더 높습니다. 또한 일부 멀티포트 카드에는 여러 개의 2포트 커넥터가 있습니다. 드라이브 7과 드라이브 8이 동일한 드라이브에 있는 경우 문제의 원인이 될 수 있습니다.

전주곡:

전주곡:

중단 및 복구:

검시:

질문

답변1

답변2

답변3

답변4

관련 정보