매일 같은 SMART 오류에 대한 이메일을 받습니다. 이 특정 오류를 무시하도록 SMART 데몬을 구성하고 싶습니다. 하지만 이것만 무시하면 됩니다. 변경 사항이 있거나 더 악화될 경우 여전히 그렇게 하고 싶기 때문입니다.
This email was generated by the smartd daemon running on: host name: jon DNS domain: [Unknown] NIS domain: (none) The following warning/error was logged by the smartd daemon: Device: /dev/sdb [SAT], 11 Currently unreadable (pending) sectors For details see host's SYSLOG. You can also use the smartctl utility for further investigation. The original email about this issue was sent at Sun Nov 25 02:30:45 2012 CET Another email message will be sent in 24 hours if the problem persists.
이 문제가 처음 발생했을 때 읽을 수 없는 섹터 수가 서서히 증가했기 때문에 백업을 만들고 이 스레드에 설명된 많은 작업을 시도했습니다. https://serverfault.com/questions/104417/how-do-i-easily-repair-a-single-unreader-block-on-a-linux-disk
이메일을 보면 알 수 있듯이 1년 반 전 일이라 무엇을 시도했고, 무엇을 시도하지 않았는지 정확히 기억나지 않습니다. 그러나 그 이후에도 디스크는 안정적으로 작동하고 있으므로 아무것도 변경할 이유가 없습니다. (예, 정기적으로 백업을 만듭니다.)
이 정확한 텍스트가 포함된 모든 메일을 무시하는 해결 방법만 생각할 수 있지만 이는 원인이 아닌 증상만 치료하는 것입니다.
편집하다:
나는 여러분 중 대부분이 나에게 "디스크 교체" 조언을 해줄 것이라는 것을 알고 있습니다. 일반적으로 이 조언은 "이 오류가 발생했습니다. 어떻게 해야 합니까?"와 같은 질문에 대해 가능한 최선의 조언입니다.
하지만 제발,제발위험을 인지하고 있으며 SMART 데몬에 관해 매우 구체적인 질문을 하고 있음을 인정합니다. 문서에서 내가 원하는 것을 수행할 수 있음을 나타내는 내용을 찾지 못했지만 해결 방법을 사용하기 전에 먼저 여기에서 다시 확인하고 싶었습니다.
업데이트:
일주일 전쯤에 카운터가 다시 1로 내려갔습니다. 나는 그 원인이 무엇인지 전혀 모릅니다. 나는 그 기계에 대한 유지 관리 작업을 전혀 하지 않았습니다. 2년이 넘는 시간이 흐른 후, 11개 섹터가 다시 괜찮아졌습니다. 정말 이상해요.
답변1
/etc/smartd.conf 구성을 변경해야 합니다.
설정에 인수를 추가하십시오.
-t -I 197
속성 197 - 보류 중인 섹터를 무시합니다.
이렇습니다(예):
/dev/ad0 -H -l error -l selftest -t -I 197
답변2
디스크를 교체하지 않고 메시지를 중지시키는 가장 간단한 방법은 디스크가 "보류 중"을 의미하는 "아마도 불량일 수 있음" 대신 섹터를 양호 또는 불량으로 표시하도록 강제하는 것입니다. 디스크 전체를 강제로 읽으면 이 작업을 수행할 수 있습니다.
sudo dd if=/dev/sdb of=/dev/null bs=64K conv=noerror
이렇게 하면 디스크의 모든 섹터를 읽고 오류를 무시하여 디스크가 보류 중인 각 섹터를 다시 확인하고 해당 섹터가 실제로 불량인지 여부를 알려줍니다.
참고: 이렇게 하면 현재 보류 중인 11개 섹터가 지워지지만,새로운 잠재적 불량 섹터 발견진행 중입니다(보류 중인 섹터 수가 0이 아님). 보류 중인 섹터가 더 이상 없을 때까지 이를 다시 실행합니다.
답변3
흠... smartd를 어떻게 재구성할 수 있는지는 모르겠지만 이제 OMD[1]가 특정 SMART 오류를 무시하도록 만들 수 있습니다(한 번은 안정화된 재할당 섹터 수를 사용하여 이 작업을 수행했습니다). SMART 판독값보다 상자의 더 많은 매개변수를 모니터링하려는 경우에도 이 옵션이 도움이 될 수 있습니다.
답변4
Crucial MX500 시리즈 SSD와 같은 일부 드라이브는 이 오류를 잘못 반환하는 것으로 알려져 있습니다. 한 가지 해결책은 다음을 포함하는 사용자 정의 드라이브 db 파일을 설정하는 것입니다 /etc/smart_drivedb.h
(내 펌웨어 번호와 일치하도록 편집해야 했습니다).
{ "Crucial/Micron MX500 SSDs",
"CT(250|500|1000|2000)MX500SSD[14]", // tested with CT500MX500SSD1/M3CR023
"M3CR032", // Firmware with bogus attribute 197
"This firmware returns bogus raw values in attribute 197",
//"-v 1,raw48,Raw_Read_Error_Rate "
"-v 5,raw48,Reallocate_NAND_Blk_Cnt "
//"-v 9,raw24(raw8),Power_On_Hours "
//"-v 12,raw48,Power_Cycle_Count "
"-v 171,raw48,Program_Fail_Count "
"-v 172,raw48,Erase_Fail_Count "
"-v 173,raw48,Ave_Block-Erase_Count "
"-v 174,raw48,Unexpect_Power_Loss_Ct "
"-v 180,raw48,Unused_Reserve_NAND_Blk "
"-v 183,raw48,SATA_Interfac_Downshift "
"-v 184,raw48,Error_Correction_Count "
//"-v 187,raw48,Reported_Uncorrect "
//"-v 194,tempminmax,Temperature_Celsius "
//"-v 196,raw16(raw16),Reallocated_Event_Count "
"-v 197,raw48,Bogus_Current_Pend_Sect " // Randomly flips 0 <> 1
//"-v 198,raw48,Offline_Uncorrectable "
//"-v 199,raw48,UDMA_CRC_Error_Count "
"-v 202,raw48,Percent_Lifetime_Remain "
"-v 206,raw48,Write_Error_Rate "
"-v 210,raw48,Success_RAIN_Recov_Cnt "
"-v 246,raw48,Total_LBAs_Written "
"-v 247,raw48,Host_Program_Page_Count "
"-v 248,raw48,FTL_Program_Page_Count"
}
파일을 생성한 후 실행하여 service smartd restart
smartd 서비스를 업데이트합니다. 그러면 grep smartd /var/log/syslog
해당 드라이브에 대해 활성화된 것을 확인할 수 있습니다.