повреждение файла при чтении/записи 2.6.32-22-server (происходит во многих ядрах)

Question 1

Моя интуиция подсказывает мне, что это проблема с оборудованием, возможно, связанная с температурой (так как она проявляется после некоторого времени работы). Скорее всего, у вас проблема с южным мостом или связанным с ним оборудованием.

Рассмотрите возможность проведения расширенных тестов транзакций на южном мосту или просто замените материнскую плату.

То, что ваша ОС остается стабильной, но у вас есть случайные ошибки ввода-вывода, обычно исключает ЦП/память, поскольку ошибки в них, как правило, приводят к сбою ОС и ее сгоранию вместе с другим программным обеспечением. Но большая часть ядра считывается с диска при загрузке и никогда не выгружается, поэтому система Linux может быть на удивление стабильной, даже если она не может правильно считывать данные с диска.

Answer

Моя интуиция подсказывает мне, что это проблема с оборудованием, возможно, связанная с температурой (так как она проявляется после некоторого времени работы). Скорее всего, у вас проблема с южным мостом или связанным с ним оборудованием.

Рассмотрите возможность проведения расширенных тестов транзакций на южном мосту или просто замените материнскую плату.

То, что ваша ОС остается стабильной, но у вас есть случайные ошибки ввода-вывода, обычно исключает ЦП/память, поскольку ошибки в них, как правило, приводят к сбою ОС и ее сгоранию вместе с другим программным обеспечением. Но большая часть ядра считывается с диска при загрузке и никогда не выгружается, поэтому система Linux может быть на удивление стабильной, даже если она не может правильно считывать данные с диска.

Question 2

Повреждение происходит на самом хосте или на гостевых машинах? В qemu-kvm есть известная ошибка, которая приводит к повреждению данных на больших виртуальных дисках (см.https://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665например)

Answer

Повреждение происходит на самом хосте или на гостевых машинах? В qemu-kvm есть известная ошибка, которая приводит к повреждению данных на больших виртуальных дисках (см.https://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665например)

Question 3

Я согласен с @pehrs, что стоит рассмотреть тепловой аспект этого, поскольку проблема со временем усиливается. Какой у вас сервер? Большинство стоечных устройств в наши дни поставляются с большим количеством датчиков, которые можно использовать для мониторинга состояния оборудования. Посмотритеlm-датчики. Если это сервер Dell, то DellОМСАpackage может быть полезен. Я уверен, что и другие крупные игроки имеют свои собственные фирменные пакеты.

Я мог бы также подкинуть несколько других идей — они не совсем соответствуют описанному вами сценарию, когда проблема появляется только через некоторое время, но они не повредят.

Что касается журналов ошибок, вы получаете какие-либо сообщения об ошибках в журналах с диска или RAID-подсистемы? Или в dmesg? LinuxПрограммное обеспечение-RAID HOTWOсодержит некоторую информацию о типах ошибок, которые вы будете искать. Что-то вроде плохого кабеля может не отображаться в самотестировании SMART привода, но вы определенно увидите некоторые сообщения об ошибках в журнале.

Какая конфигурация RAID? Что-нибудь в /proc/mdstat? Если (например) на сервере был RAID 5 из 3 дисков и один из дисков был неисправен, это могло вызвать проблемы.

Также проверьте версию прошивки вашей материнской платы/карты SCSI и т. д. и посмотрите, обновлена ли она или есть ли какие-либо ошибки, связанные с дисковым вводом-выводом, которые были исправлены.

Answer

Я согласен с @pehrs, что стоит рассмотреть тепловой аспект этого, поскольку проблема со временем усиливается. Какой у вас сервер? Большинство стоечных устройств в наши дни поставляются с большим количеством датчиков, которые можно использовать для мониторинга состояния оборудования. Посмотритеlm-датчики. Если это сервер Dell, то DellОМСАpackage может быть полезен. Я уверен, что и другие крупные игроки имеют свои собственные фирменные пакеты.

Я мог бы также подкинуть несколько других идей — они не совсем соответствуют описанному вами сценарию, когда проблема появляется только через некоторое время, но они не повредят.

Что касается журналов ошибок, вы получаете какие-либо сообщения об ошибках в журналах с диска или RAID-подсистемы? Или в dmesg? LinuxПрограммное обеспечение-RAID HOTWOсодержит некоторую информацию о типах ошибок, которые вы будете искать. Что-то вроде плохого кабеля может не отображаться в самотестировании SMART привода, но вы определенно увидите некоторые сообщения об ошибках в журнале.

Какая конфигурация RAID? Что-нибудь в /proc/mdstat? Если (например) на сервере был RAID 5 из 3 дисков и один из дисков был неисправен, это могло вызвать проблемы.

Также проверьте версию прошивки вашей материнской платы/карты SCSI и т. д. и посмотрите, обновлена ли она или есть ли какие-либо ошибки, связанные с дисковым вводом-выводом, которые были исправлены.

повреждение файла при чтении/записи 2.6.32-22-server (происходит во многих ядрах)

решение1

решение2

решение3

Связанный контент