mdadm RAID1에 구성된 두 개의 솔리드 스테이트 드라이브가 있는 서버를 관리하고 있습니다. 서버는 ext4 파일 시스템을 갖춘 RHEL6을 실행하고 있습니다.
오늘 저녁 야간 백업이 시작된 직후 서버가 오프라인 상태가 되었고 콘솔에서 디스크 오류를 보고했습니다.
콘솔에 로그인했을 때 디스크 중 하나가 mdadm에 의해 실패로 표시되었고 파일 시스템이 읽기 전용으로 설정되어 있음을 발견했습니다.
파일 시스템이 읽기 전용으로 다시 마운트되기 전에 드라이브가 실패하도록 mdadm을 구성할 수 있는 방법이 있습니까?파일 시스템을 즉시 읽기 전용 모드로 전환하는 것보다 짧은 시간 동안(교체 디스크를 설치할 수 있을 때까지) 단일 디스크 시스템으로 실행하는 것이 좋습니다. 이렇게 하면 중단이 보장됩니다.
답변1
기본적으로 그렇게 하지만, 저도 이와 비슷한 문제를 겪었습니다. MD는 실제로 디스크 오류(또는 실제로 하드웨어 RAID 컨트롤러가 수행하는 섹터를 다시 작성하여 복구)를 열성적으로 수행하지 않습니다. 그래서 'ata 예외'를 검색하고 그런 일이 발생하면 이메일을 보내도록 로그 모니터링을 설정했습니다. 최소한 기존 HDD의 경우 이를 통해 디스크 오류를 훨씬 빠르게 확인할 수 있습니다.
파일 시스템이 읽기 전용으로 표시된 경우 오류는 체인 위로 올라가며 MD 장치에도 오류가 표시됩니다. sdb에 오류가 없는 것이 확실합니까?
아니면 드라이브에 전혀 오류가 발생했다고 확신하시나요? 최근에 전체 PCI 버스에 장애가 발생한 경우가 있습니다. 연결된 모든 장치(모든 ATA 및 이더넷)에서 오류가 발생하기 시작했으며 실제로 파일 시스템은 읽기 전용으로 표시되었고 MD 어레이는 실패한 것으로 표시되었습니다. 그러나 분명히 디스크나 MD는 문제가 아니었습니다.
드라이브에 오류가 있는지 확인하려면 SSD 드라이브의 SMART에 대한 경험이 많지 않지만 적어도 HDD 드라이브의 경우 SMART 로그에 뭔가가 표시될 수 있습니다. 거기에 오류 로그가 있고 스마트 매개변수를 볼 수 있으며 아마도 다른 디스크와 비교할 수도 있습니다.
smartmontools가 설치되어 있으면 다음을 수행할 수 있습니다.
smartctl -a /dev/sda
당신은 또한에 관심이있을 수 있습니다RAID 어레이 문제를 해결하는 방법.
편집: PCI 버스에 관해서입니다. 문제가 하나의 디스크나 컨트롤러에 국한된 것 같습니다.