Обновлять

Question

Я не знаю, как принудительно запустить fsck, используя решение, которое вы пытаетесь использовать, но могу предложить альтернативное решение:

Используйте tune2fsи ограничьте значение до очень низкого количества повторных монтирований и очень низких временных меток.

# To see current settings
sudo tune2fs -l /dev/sda4
# To alter it
sudo tune2fs -c 1 -i 1d /dev/sda4

Это приведет к принудительной проверке при каждом повторном монтировании или каждый день с момента последней проверки, в зависимости от того, что произойдет раньше.

Проверьте SMART

Как уже говорили другие, это просто пластырь для проблем с HW. Иногда HDD умирает, в других случаях это не связанная с HW проблема (выполните memtest), в других случаях это просто отсоединившийся кабель SATA (отсоедините и снова подсоедините его с обоих концов, если это не исправит проблему, попробуйте другой кабель).

Будьте осторожны, в худшем случае блок питания неисправен и повреждает остальное оборудование (в таком случае замена жесткого диска решит проблему только временно, поскольку со временем новый жесткий диск будет поврежден блоком питания). Проверьте, находятся ли напряжения в допустимых пределах.

Публикую вывод smart:

sudo smartctl -a /dev/sda

Может помочь в диагностике того, что может происходить.

Обновлять

Я также не знаю, почему нельзя запустить fsck через tune2fs.

Но я видел ваш SMART. Согласно ему ваш диск стареет, но выглядит здоровым.

Проблема может быть в чем-то другом, например, в кабеле SATA.

Если вам не удаётся заставить fsck работать, то всё, что я могу посоветовать, — это загрузиться с liveUsb и выполнить команду вручную.

Обновление 2

Хорошо, вы опубликовали сообщения dmseg.У нас есть противоречивые сведения от SMART и ОС., поэтому я напишу об этом подробно.

Плохие блоки

SMART сообщает, что на ваших дисках есть плохие блоки. Это нормально для любого SSD, так как они стареют, и диск перераспределит данные в запасные блоки. Как только запас закончится, диск необходимо заменить.

SMART сообщает, что количество плохих блоков находится в пределах нормы.: Наиболее важными атрибутами, которые следует здесь увидеть, являются Reallocated_Sector_Ctи Runtime_Bad_Block.

Он говорит, что обнаружил 311 плохих блоков и перераспределил 311 в резервные. Это хорошо. Если было 311 плохих блоков, но только 310 перераспределений, это означает, что данные в одном из блоков были потеряны.

Важно «нормализованное» значение (038). Так производитель сообщает вам, что он считает нормальным.

Значение, где 100 означает идеально, а 0 означает очень плохо. Сейчас это 38, что означает «становится плохо»; но производитель говорит, что это нормально, пока это значение выше 010 (THRESHold).

Вот наша первая противоречивая информация: Used_Rsvd_Blk_Cnt_Totговорят, что резерв вообще не был тронут., несмотря на плохие блоки. Это не сходится.

Но я не удивлюсь, если прошивка просто не отслеживает это значение, несмотря на то, что сообщает о нем, поэтому мы пока проигнорируем это.

Выравнивание износа

Это самый проблемный атрибут для чтения. Wear_Leveling_CountОн равен 001. Обычно значение 1 означает, что ваш диск неисправен и его необходимо заменить как можно скорее.

Это означает, что у него закончились запасные блоки. Но были ошибки прошивки, когда этот атрибут сообщался в обратном порядке, и значение 1 означало, что диск на 99% здоров.

ИспользуяКалькулятор TBWЯ вставил ваше число записанных LBA + размер сектора 512 и получил, что на вашем диске записано 77,43TiB. Согласно Google, ваша модель должна иметь 150TBW, так что этодолженвсе еще быть жизнеспособным.

Боюсь, что лучшим решением здесь будет развернуть Windows-бокс и запуститьCrystalDiskInfoкоторый учитывает эти ошибки прошивки (используя внутреннюю базу данных) и предоставит вам очень точную оценку работоспособности.

Учитывая, что говорит ваш ум, SMART overall-health self-assessment test result: PASSEDя склонен полагать, что он хочет сказать 99%, а не 1%.

Но если я не прав, то на этом можно остановиться: диск необходимо заменить.

Проблемы с кабелем / Проблемы с материнской платой

Ошибки в dmesg Linux в основном говорят о том, что система попыталась прочитать сектор и получила неверные данные.

Ядро даже сообщает, что пыталось прочитать сектор 235602696 дважды и получило разные данные:

28 00 0д 0б 03 08 00 002000
28 00 0д 0б 03 08 00 000800.

Если диск говорит, что ошибок нет, а ОС говорит, что есть; то данные были повреждены при передаче. Обычно это означает:

Кабель SATA подключен неплотно
Кабель SATA поврежден
Кабель питания неплотно подключен
Кабель питания поврежден
Сбой шины материнской платы
Сбой блока питания
Сбой оперативной памяти

Но вот где мы имеемнаш второй источник противоречивой информации: UDMA_CRC_Error_Countравно 0.

Это означает, что диск ни разу не обнаружил ни одной ошибки, вызванной неисправным/ослабленным кабелем или неисправной шиной материнской платы.

Это просто очень маловероятно. SMART говорит, что с диском все в порядке, команды, поступающие от ОС на диск, никогда не повреждаются плохой проводкой; тем не менее ОС дважды прочитала один и тот же сектор и получила другой байт.

Единственное, что, как мне кажется, могло бы сделать это возможным — это плохая оперативная память.Или крайне маловероятная проблема с кабелем, при которой все данные, поступающие на диск, не повреждаются, но данные, которые с него выходят, повреждаются.

Ход действий

Моя интуиция подсказывает мне, что диск плохой. Но:

Резервное копирование всех данных на другой диск. В LiveUSB (и внешнем USB-накопителе достаточного размера):

sudo apt install zstd

# To backup
sudo zstd -16v < /dev/sda > /media/external_disk/backup_file.zst

# To restore (don't do that on step 1, see step 5)
sudo zstdcat -v /media/external_disk/backup_file.zst > /dev/sda

Снова создайте резервную копию данных, но на этот раз просто с помощью обычного копирования файлов (если диск выйдет из строя, гораздо проще восстановить его из простой резервной копии, чем пытаться смонтировать сжатый образ zstd диска и прочитать файлы с него).
Перезагрузите и запустите memtest, чтобы сбросить ошибки RAM.
Выключите, откройте корпус и отсоедините и снова подсоедините кабели SATA и питания (к приводу). Проверьте, не повреждены ли они. Возможно, замените их.
Загрузитесь с LiveUSB-накопителя снова и выполните безопасное стирание диска. Если с вашим диском что-то не так, возможно, это вернет его в рабочее состояние (или, возможно, это приведет к последней команде, которую он выполнит, если диск уже не спасти). Это должно занять несколько минут:

sudo blkdiscard -s /dev/sda

Если до сих пор все прошло хорошо, восстановите резервную копию с помощью sudo zstdcatкоманды из шага 1.

Если с диском по-прежнему есть проблемы, а тест памяти пройден успешно, то лично я бы просто исключил диск из списка неисправных.

Мы не можем игнорировать тот факт, что значение 038 Reallocated_Sector_Ctозначает, что дела идут плохо, несмотря на то, что производитель утверждает, что пока не «настолько» плохо.

Ах! Важно: если в какой-то момент вы оставили диск выключенным более чем на 3 месяца; такой сценарий вполне возможен. Несмотря на распространенное мнение, ячейки NAND могут потерять свою память, если их оставить без питания на слишком долгое время («слишком долго» может длиться от 7 дней до 7 лет; но наиболее распространенный случай — 3 месяца). Особенно если они старые.

Если это произошло с вами, то просто выполните указанные выше действия: сделайте резервную копию данных, выполните безопасную очистку диска, восстановите резервную копию.

Удачи.

Answer 1

Я не знаю, как принудительно запустить fsck, используя решение, которое вы пытаетесь использовать, но могу предложить альтернативное решение:

Используйте tune2fsи ограничьте значение до очень низкого количества повторных монтирований и очень низких временных меток.

# To see current settings
sudo tune2fs -l /dev/sda4
# To alter it
sudo tune2fs -c 1 -i 1d /dev/sda4

Это приведет к принудительной проверке при каждом повторном монтировании или каждый день с момента последней проверки, в зависимости от того, что произойдет раньше.

Проверьте SMART

Как уже говорили другие, это просто пластырь для проблем с HW. Иногда HDD умирает, в других случаях это не связанная с HW проблема (выполните memtest), в других случаях это просто отсоединившийся кабель SATA (отсоедините и снова подсоедините его с обоих концов, если это не исправит проблему, попробуйте другой кабель).

Будьте осторожны, в худшем случае блок питания неисправен и повреждает остальное оборудование (в таком случае замена жесткого диска решит проблему только временно, поскольку со временем новый жесткий диск будет поврежден блоком питания). Проверьте, находятся ли напряжения в допустимых пределах.

Публикую вывод smart:

sudo smartctl -a /dev/sda

Может помочь в диагностике того, что может происходить.

Обновлять

Я также не знаю, почему нельзя запустить fsck через tune2fs.

Но я видел ваш SMART. Согласно ему ваш диск стареет, но выглядит здоровым.

Проблема может быть в чем-то другом, например, в кабеле SATA.

Если вам не удаётся заставить fsck работать, то всё, что я могу посоветовать, — это загрузиться с liveUsb и выполнить команду вручную.

Обновление 2

Хорошо, вы опубликовали сообщения dmseg.У нас есть противоречивые сведения от SMART и ОС., поэтому я напишу об этом подробно.

Плохие блоки

SMART сообщает, что на ваших дисках есть плохие блоки. Это нормально для любого SSD, так как они стареют, и диск перераспределит данные в запасные блоки. Как только запас закончится, диск необходимо заменить.

SMART сообщает, что количество плохих блоков находится в пределах нормы.: Наиболее важными атрибутами, которые следует здесь увидеть, являются Reallocated_Sector_Ctи Runtime_Bad_Block.

Он говорит, что обнаружил 311 плохих блоков и перераспределил 311 в резервные. Это хорошо. Если было 311 плохих блоков, но только 310 перераспределений, это означает, что данные в одном из блоков были потеряны.

Важно «нормализованное» значение (038). Так производитель сообщает вам, что он считает нормальным.

Значение, где 100 означает идеально, а 0 означает очень плохо. Сейчас это 38, что означает «становится плохо»; но производитель говорит, что это нормально, пока это значение выше 010 (THRESHold).

Вот наша первая противоречивая информация: Used_Rsvd_Blk_Cnt_Totговорят, что резерв вообще не был тронут., несмотря на плохие блоки. Это не сходится.

Но я не удивлюсь, если прошивка просто не отслеживает это значение, несмотря на то, что сообщает о нем, поэтому мы пока проигнорируем это.

Выравнивание износа

Это самый проблемный атрибут для чтения. Wear_Leveling_CountОн равен 001. Обычно значение 1 означает, что ваш диск неисправен и его необходимо заменить как можно скорее.

Это означает, что у него закончились запасные блоки. Но были ошибки прошивки, когда этот атрибут сообщался в обратном порядке, и значение 1 означало, что диск на 99% здоров.

ИспользуяКалькулятор TBWЯ вставил ваше число записанных LBA + размер сектора 512 и получил, что на вашем диске записано 77,43TiB. Согласно Google, ваша модель должна иметь 150TBW, так что этодолженвсе еще быть жизнеспособным.

Боюсь, что лучшим решением здесь будет развернуть Windows-бокс и запуститьCrystalDiskInfoкоторый учитывает эти ошибки прошивки (используя внутреннюю базу данных) и предоставит вам очень точную оценку работоспособности.

Учитывая, что говорит ваш ум, SMART overall-health self-assessment test result: PASSEDя склонен полагать, что он хочет сказать 99%, а не 1%.

Но если я не прав, то на этом можно остановиться: диск необходимо заменить.

Проблемы с кабелем / Проблемы с материнской платой

Ошибки в dmesg Linux в основном говорят о том, что система попыталась прочитать сектор и получила неверные данные.

Ядро даже сообщает, что пыталось прочитать сектор 235602696 дважды и получило разные данные:

28 00 0д 0б 03 08 00 002000
28 00 0д 0б 03 08 00 000800.

Если диск говорит, что ошибок нет, а ОС говорит, что есть; то данные были повреждены при передаче. Обычно это означает:

Кабель SATA подключен неплотно
Кабель SATA поврежден
Кабель питания неплотно подключен
Кабель питания поврежден
Сбой шины материнской платы
Сбой блока питания
Сбой оперативной памяти

Но вот где мы имеемнаш второй источник противоречивой информации: UDMA_CRC_Error_Countравно 0.

Это означает, что диск ни разу не обнаружил ни одной ошибки, вызванной неисправным/ослабленным кабелем или неисправной шиной материнской платы.

Это просто очень маловероятно. SMART говорит, что с диском все в порядке, команды, поступающие от ОС на диск, никогда не повреждаются плохой проводкой; тем не менее ОС дважды прочитала один и тот же сектор и получила другой байт.

Единственное, что, как мне кажется, могло бы сделать это возможным — это плохая оперативная память.Или крайне маловероятная проблема с кабелем, при которой все данные, поступающие на диск, не повреждаются, но данные, которые с него выходят, повреждаются.

Ход действий

Моя интуиция подсказывает мне, что диск плохой. Но:

Резервное копирование всех данных на другой диск. В LiveUSB (и внешнем USB-накопителе достаточного размера):

sudo apt install zstd

# To backup
sudo zstd -16v < /dev/sda > /media/external_disk/backup_file.zst

# To restore (don't do that on step 1, see step 5)
sudo zstdcat -v /media/external_disk/backup_file.zst > /dev/sda

Снова создайте резервную копию данных, но на этот раз просто с помощью обычного копирования файлов (если диск выйдет из строя, гораздо проще восстановить его из простой резервной копии, чем пытаться смонтировать сжатый образ zstd диска и прочитать файлы с него).
Перезагрузите и запустите memtest, чтобы сбросить ошибки RAM.
Выключите, откройте корпус и отсоедините и снова подсоедините кабели SATA и питания (к приводу). Проверьте, не повреждены ли они. Возможно, замените их.
Загрузитесь с LiveUSB-накопителя снова и выполните безопасное стирание диска. Если с вашим диском что-то не так, возможно, это вернет его в рабочее состояние (или, возможно, это приведет к последней команде, которую он выполнит, если диск уже не спасти). Это должно занять несколько минут:

sudo blkdiscard -s /dev/sda

Если до сих пор все прошло хорошо, восстановите резервную копию с помощью sudo zstdcatкоманды из шага 1.

Если с диском по-прежнему есть проблемы, а тест памяти пройден успешно, то лично я бы просто исключил диск из списка неисправных.

Мы не можем игнорировать тот факт, что значение 038 Reallocated_Sector_Ctозначает, что дела идут плохо, несмотря на то, что производитель утверждает, что пока не «настолько» плохо.

Ах! Важно: если в какой-то момент вы оставили диск выключенным более чем на 3 месяца; такой сценарий вполне возможен. Несмотря на распространенное мнение, ячейки NAND могут потерять свою память, если их оставить без питания на слишком долгое время («слишком долго» может длиться от 7 дней до 7 лет; но наиболее распространенный случай — 3 месяца). Особенно если они старые.

Если это произошло с вами, то просто выполните указанные выше действия: сделайте резервную копию данных, выполните безопасную очистку диска, восстановите резервную копию.

Удачи.

Обновлять

решение1

Проверьте SMART

Обновлять

Обновление 2

Плохие блоки

Выравнивание износа

Проблемы с кабелем / Проблемы с материнской платой

Ход действий

Связанный контент