
Я купил подержанный Poweredge T610 и обновил его до 2x Hexcore Xeon X5675 процессоров и 96 ГБ ОЗУ. Изначально я использовал 3 зеленых диска WD 2 ТБ в массиве RAID-5 (контроллер Perc6i) и установил Ubuntu server на виртуальный диск. Такая конфигурация прослужила мне около года, а затем начались проблемы:
Я купил несколько новых дисков для расширения в качестве второго массива - 4x 3TB WD red диска. Тем временем я узнал, что по крайней мере WD green - не лучший выбор, поэтому я хотел сделать резервную копию некоторых данных на новом VD. Оказалось, что Perc6i не любит диски >2TB, но он распознал первые 2 из 3 TB. Я еще не начал настраивать VD с новыми дисками, но 3 недели спустя мой массив WD green начал портиться (сначала только странные глифы в каком-то программном обеспечении, затем более серьезные проблемы вплоть до поврежденной последовательности загрузки). Я в итоге обратился в профессиональную службу восстановления данных, которая, к счастью, смогла мне помочь. Я обменял Perc6i на H700 и настроил массив RAID6 из 4 3TB WD red дисков (который я проверил с помощью расширенного теста диагностики оборудования Dell перед настройкой - ни на одном из них не было ошибок). Установите Ubuntu, все необходимое программное обеспечение, x2go и т. д. Снова все работает.
Теперь у меня та же проблема, что и раньше - в X2go он запускается с тем же программным обеспечением (пакетом биоинформатики artemis), выплевывая глифы в командной строке, и похоже, что я возвращаюсь к исходной точке. Все светодиоды состояния на кэдди постоянно зеленые, т.е. онлайн. По крайней мере, никаких прогнозируемых сбоев, которые система распознает.
Я начинаю задаваться вопросом, в чем может быть проблема:
Что я не считаю вероятным: - отказ основного диска (снова!), поскольку диски были новыми, не имели плохих секторов при расширенном тестировании и вообще не работали долго. - контроллер perc6i был заменен на H700 после первой аварии и не должен быть проблемой.
Мне нужна помощь в оценке: проблем с объединительной платой/кабелем? (Контроллер H700 поставлялся с кабелями для другого типа сервера, которые не подошли к моему корпусу — я просто использовал другой кабель SATA6 для подключения контроллера к объединительной плате). Кстати, диски находятся в тех же отсеках, что и предыдущие, вышедшие из строя, и туда идет оригинальный кабель Dell SATA.
-Проблемы с материнской платой? -Проблемы с процессором или оперативной памятью? -Блок питания (скачки напряжения??)
У кого-нибудь была похожая проблема? Любая помощь здесь будет очень ценна. К сожалению, я буду отсутствовать еще две недели, прежде чем смогу получить доступ к серверу (как физически, так и по сети), о проблеме «сообщила» моя жена, которая работает с сервером в нашей локальной сети (но, к сожалению, не сможет помочь в устранении неполадок).
Да, я выполнил полную процедуру диагностики оборудования Dell, без каких-либо проблем. Только один из дисков был обнаружен с дефектными блоками, но я не смог восстановить массив RAID 5, поэтому мне нужен специалист по восстановлению данных. Все остальное оборудование было в порядке
Мне просто интересно, могут ли быть непоследовательные проблемы, такие как глючные контакты где-либо, которые могут пройти тесты в один момент и не пройти в другой. Или если тесты не охватывают все сценарии...
решение1
По опыту, похоже на проблему с повреждением оперативной памяти. Первое, что я бы попробовал, это средство диагностики памяти. Dell предлагает их для скачивания.
Если это не обнаружит ошибок, я бы вытащил все оборудование, чтобы свести его к минимуму, а затем добавил бы его обратно, пока не увидите проблему. Очень долго, но иногда это единственный способ, если диагностика ничего не показывает. Очевидно, что это трудно сделать с жесткими дисками, но вы можете сделать это с процессором и оперативной памятью. Не забывайте добавлять все по одному за раз, иначе вы не узнаете, что из этого виновато.
Мое другое предложение — использовать гипервизор и создавать виртуальные машины вместо установки на голое железо. Это значительно упростит восстановление функциональности в случае сбоев. Кроме того, создание режима резервного копирования перед установкой приложений поможет вам избежать повторной необходимости в услугах по восстановлению данных.
решение2
Не повезло? Проверьте жесткий диск на другом новом компьютере, чтобы увидеть его текущее состояние.
Имейте в виду, что T610 как будто 9-летней давности. Я честно думаю, что любой современный настольный компьютер будет быстрее T610.
Прошивка диска может повлиять, но ваш массив пометит их как чужеродные диски, лучше, если вы измените их все сразу. Ни в коем случае не смешивайте диски Dell с их прошивкой и обычные диски, контроллер этого не допустит.
Их прошивка на диске позволяет контроллеру выполнять расширенные функции с диском, в то время как массив, если используется обычный диск с обычной прошивкой, будет работать нормально.
Тот факт, что ваш массив был обнаружен, заставляет меня думать, что контроллер может их видеть и использовать. Вот почему я сначала заявляю о неудаче..