
Мы небольшой магазин, в котором в качестве основного сервера используется Dell T420 (двойной ЦП, только один присутствует, 6 ядер) с 32 ГБ ОЗУ. У нас всего 5 ВМ, одна из которых — наш WSE 2012 DC.
Время от времени и с частотой, для которой мы не смогли установить надежную закономерность, все наши виртуальные машины одновременно достигают 100% загрузки ЦП. Хост остается тихим на уровне 4-5%. Теплая загрузка хоста не приносит облегчения, но холодная загрузка, по крайней мере, возвращает все в исходное состояние, пока проблема не возникнет снова.
Иногда мы можем получить неделю или больше спокойного моря из этого; иногда только день. Ненадежная закономерность, похоже, заключается в том, что это начинается в течение длительного периода простоя, то есть ночью. Изучение журналов температуры сервера сначала привело нас к подозрению о перегреве, но дальнейшее расследование недавних инцидентов испортило эту зацепку.
Мы также нашли описания похожих проблем на форумах Dell, с заявлениями о решении путем установки последнего пакета обновлений Dell. Недавно мы занялись проектом, чтобы сделать именно это (кстати, это было настоящее приключение — безопасно выгрузить ~700 ГБ VHD с этой машины и вернуть их обратно), но, к нашему полному разочарованию, это не помогло.
Мы совершенно сбиты с толку. Как и поддержка Microsoft (или, по крайней мере, поддержка первого уровня, хотя они стараются не показывать этого). Ниже я привожу вывод SystemInfo.
Кто-нибудь знает, где начать искать?
Спасибо
===================================
Имя хоста: SERVER1 Название ОС: Microsoft Hyper-V Server 2012 R2 Версия ОС: 6.3.9600 N/A Сборка 9600 Производитель ОС: Microsoft Corporation Конфигурация ОС: Автономный сервер Тип сборки ОС: Многопроцессорная бесплатная Зарегистрированный владелец: Пользователь Windows Зарегистрированная организация: Код продукта: 06401-029-0000043-76293 Первоначальная дата установки: 03.04.2014, 16:07:15 Время загрузки системы: 04.05.2014, 13:56:47 Производитель системы: Dell Inc. Модель системы: PowerEdge T420 Тип системы: ПК на базе x64 Процессор(ы): Установлен 1 процессор(ы). [01]: Intel64 Family 6 Model 45 Stepping 7 GenuineIntel ~2200 МГц [Intel(R) Xeon(R) CPU E5-2430 0 @ 2.20 GHz] (добавлено вручную) Версия BIOS: Dell Inc. 2.1.2, 20.01.2014 Каталог Windows: C:\Windows Системный каталог: C:\Windows\system32 Загрузочное устройство: \Device\HarddiskVolume1 Язык системы: en-us;Английский (США) Язык ввода: en-us;Английский (США) Часовой пояс: (UTC-09:00) Аляска Общий объем физической памяти: 32 723 МБ Доступная физическая память: 12 716 МБ Виртуальная память: максимальный размер: 37 587 МБ Виртуальная память: Доступно: 17 129 МБ Виртуальная память: используется: 20 458 МБ Расположение файла подкачки: C:\pagefile.sys Домен: OIT Сервер входа: \\SERVER1 Исправление(я): Установлено 31 исправление(я). [01]: КБ2843630 [02]: КБ2862152 [03]: КБ2868626 [04]: KB2876331 [05]: КБ2883200 [06]: КБ2884846 [07]: KB2887595 [08]: KB2892074 [09]: KB2893294 [10]: KB2894179 [11]: KB2898514 [12]: KB2898871 [13]: KB2901101 [14]: KB2901128 [15]: KB2903939 [16]: KB2904266 [17]: KB2908174 [18]: KB2909210 [19]: KB2911106 [20]: KB2913760 [21]: KB2916036 [22]: KB2917929 [23]: KB2919394 [24]: KB2919442 [25]: KB2922229 [26]: КБ2923300 [27]: KB2923768 [28]: KB2928193 [29]: KB2928680 [30]: KB2930275 [31]: KB2939087 Сетевые карты: установлено 3 сетевых карты. [01]: Broadcom NetXtreme Gigabit Ethernet Имя подключения: NIC1 DHCP включен: нет IP-адрес(а) [02]: Broadcom NetXtreme Gigabit Ethernet Имя подключения: NIC2 DHCP включен: Да DHCP-сервер: 192.168.1.12 IP-адрес(а) [01]: 192.168.1.135 [02]: fe80::915b:8de0:712e:29f1 [03]: Виртуальный Ethernet-адаптер Hyper-V Имя подключения: vEthernet (внешний сетевой адаптер 1_внутренний) DHCP включен: нет IP-адрес(а) [01]: 192.168.1.11 [02]: fe80::2d35:f582:4958:9eb2 Требования Hyper-V: Обнаружен гипервизор. Функции, необходимые для Hyper-V, не будут отображаться.
== ПРАВКА =======================
Я нашел решение этой проблемы; я ждал больше года, чтобы убедиться, что мы больше не столкнемся с этой проблемой.
Модераторы: Я хотел бы попросить повторно открыть вопрос, чтобы я мог опубликовать ответ.
решение1
После года ожидания, необходимого для подтверждения правильности решения, я наконец-то могу опубликовать этот ответ.
В настройках BIOS Dell по умолчанию включены C-States, что переводит компьютер в режим низкого энергопотребления во время простоя. Это то, что заставляет виртуальные машины достигать 100% загрузки ЦП на хосте гипервизора (включая VMWare, Citrix).
Решением является установка параметра «Профиль системы» в BIOS на значение «Производительность», а не «Производительность на ватт» [ОС] или «Производительность на ватт» [DAPC] (последнее значение установлено по умолчанию).
Соответствующая документация Dell, стр. 3:
http://en.community.dell.com/techcenter/extras/m/white_papers/20161975/download
А это ответ одного из немногих инженеров службы поддержки Dell, который знаком с этой проблемой:
Короткая версия: C-States отключают дополнительные ядра процессора во время простоя. Для виртуальных машин, привязанных к ядру (это контролируется ОС, я не думаю, что это можно настроить), это может привести к их блокировке, поскольку они пытаются выполнить действия с ресурсами, которых больше не существует в их глазах.
В целом, C-состояния обычно используются на таких объектах, как серверы резервного копирования, серверы вторичной роли (резервные DNS, DHCP, контроллеры домена и т. д.), чтобы серверы резервного копирования могли оставаться включенными, но в режиме пониженного энергопотребления для экономии энергии.
Дополнительную документацию можно найти здесь:
http://en.wikipedia.org/wiki/Расширенная_конфигурация_и_интерфейс_питания
Короче говоря, на сервере Dell режим простоя всегда должен быть отключен (установлен на «Производительность») для хостов гипервизора.
Благодарю Эдди Саймонса из Kitsap Bank за помощь в поиске этого решения.
решение2
Неясно, в чем проблема; вы уже знаете это. У нас нет возможности сказать вам, в чем причина.
Однако вы можете провести некоторые тесты:
Построить ВМ 1
- Постоянно запускать ресурсоемкую задачу на этой виртуальной машине
(выполнять миллионы сложных математических вычислений в секунду)
- Постоянно запускать ресурсоемкую задачу на этой виртуальной машине
Построить ВМ 2
- Постоянно запускать на этой виртуальной машине задачу, интенсивно использующую оперативную память
(создать гигантский массив в памяти, удалить его, повторить)
- Постоянно запускать на этой виртуальной машине задачу, интенсивно использующую оперативную память
Построить ВМ 3
- Постоянно запускать ресурсоемкую задачу DISK на этой виртуальной машине
(чтение/запись/удаление миллионов строк в/из файла)
- Постоянно запускать ресурсоемкую задачу DISK на этой виртуальной машине
Сборка ВМ 4
- Постоянно выполнять ресурсоемкую СЕТЕВУЮ задачу на этой виртуальной машине
(копирование файлов в/из общего ресурса SMB)
- Постоянно выполнять ресурсоемкую СЕТЕВУЮ задачу на этой виртуальной машине
Подождите, пока проблема не возникнет снова, просмотрите данные о производительности на каждом из этих серверов.
Какой пострадал больше всего?
Были ли какие-то, которые вообще не пострадали?
Я предполагаю, что ваши диски плохие, и ЦП ждет завершения операций ввода-вывода, прежде чем продолжить работу, из-за чего некоторые приложения могут вырубить ЦП.
решение3
Рад, что нашел это. У меня есть сервер 2012R2 с Hyper-v. AMD, 6-ядерный процессор. Он работал отлично больше года. Внезапно я начал видеть виртуальные машины, к которым невозможно подключиться — ни с помощью RDP, ни с помощью Hyper-V. Единственным вариантом было ВЫКЛЮЧИТЬ виртуальную машину. Выключение не дало ответа. Так что... выдерните виртуальную вилку из розетки. Включите.
Симптомом было то, что отдельная машина, по-видимому, использовала 100% выделенных ей ресурсов ЦП (например, одноядерная виртуальная машина на шестиядерном хосте использовала 16%).
Проблема была спорадической. Никакой очевидной закономерности или причины.
Наконец, мне пришло в голову, что это совпало с моей неудачной попыткой обновиться с 32 до 64 ГБ на этой материнской плате. ЭТА проблема была в том, что я мог заставить 1, 2 или 3 планки памяти по 16 ГБ работать для 16, 32 или 48 ГБ, но не четыре планки для 64 ГБ. Много возни с настройками BIOS и т. д. Никакой радости на этом фронте. Вот тогда я обнаружил замечательную функцию на виртуальной машине для включения динамической памяти. Оказывается, я все-таки смогу прожить без 64 гигабайт!!
Предполагаю, что я включил управление питанием процессора во время своих экспериментов, и тогда возникла эта проблема.
Я отключил APM в биосе. Пройдет пара дней, прежде чем я буду на 60% уверен, что это исправило проблему. Пара недель, чтобы объявить о победе. Но это, ПО-ВИДИМОМУ, является веской причиной проблемы.
Прошло уже 24 часа, и пока все хорошо.
Скрещенные пальцы.
Спасибо за информацию!!