Периодическая загрузка ЦП на 100% на всех виртуальных машинах

Периодическая загрузка ЦП на 100% на всех виртуальных машинах

Мы небольшой магазин, в котором в качестве основного сервера используется Dell T420 (двойной ЦП, только один присутствует, 6 ядер) с 32 ГБ ОЗУ. У нас всего 5 ВМ, одна из которых — наш WSE 2012 DC.

Время от времени и с частотой, для которой мы не смогли установить надежную закономерность, все наши виртуальные машины одновременно достигают 100% загрузки ЦП. Хост остается тихим на уровне 4-5%. Теплая загрузка хоста не приносит облегчения, но холодная загрузка, по крайней мере, возвращает все в исходное состояние, пока проблема не возникнет снова.

Иногда мы можем получить неделю или больше спокойного моря из этого; иногда только день. Ненадежная закономерность, похоже, заключается в том, что это начинается в течение длительного периода простоя, то есть ночью. Изучение журналов температуры сервера сначала привело нас к подозрению о перегреве, но дальнейшее расследование недавних инцидентов испортило эту зацепку.

Мы также нашли описания похожих проблем на форумах Dell, с заявлениями о решении путем установки последнего пакета обновлений Dell. Недавно мы занялись проектом, чтобы сделать именно это (кстати, это было настоящее приключение — безопасно выгрузить ~700 ГБ VHD с этой машины и вернуть их обратно), но, к нашему полному разочарованию, это не помогло.

Мы совершенно сбиты с толку. Как и поддержка Microsoft (или, по крайней мере, поддержка первого уровня, хотя они стараются не показывать этого). Ниже я привожу вывод SystemInfo.

Кто-нибудь знает, где начать искать?

Спасибо

===================================

Имя хоста: SERVER1
Название ОС: Microsoft Hyper-V Server 2012 R2
Версия ОС: 6.3.9600 N/A Сборка 9600
Производитель ОС: Microsoft Corporation
Конфигурация ОС: Автономный сервер
Тип сборки ОС: Многопроцессорная бесплатная
Зарегистрированный владелец: Пользователь Windows
Зарегистрированная организация:   
Код продукта: 06401-029-0000043-76293
Первоначальная дата установки: 03.04.2014, 16:07:15
Время загрузки системы: 04.05.2014, 13:56:47
Производитель системы: Dell Inc.
Модель системы: PowerEdge T420
Тип системы: ПК на базе x64
Процессор(ы): Установлен 1 процессор(ы).
                           [01]: Intel64 Family 6 Model 45 Stepping 7 GenuineIntel ~2200 МГц
                           [Intel(R) Xeon(R) CPU E5-2430 0 @ 2.20 GHz] (добавлено вручную)
Версия BIOS: Dell Inc. 2.1.2, 20.01.2014
Каталог Windows: C:\Windows
Системный каталог: C:\Windows\system32
Загрузочное устройство: \Device\HarddiskVolume1
Язык системы: en-us;Английский (США)
Язык ввода: en-us;Английский (США)
Часовой пояс: (UTC-09:00) Аляска
Общий объем физической памяти: 32 723 МБ
Доступная физическая память: 12 716 МБ
Виртуальная память: максимальный размер: 37 587 МБ
Виртуальная память: Доступно: 17 129 МБ
Виртуальная память: используется: 20 458 МБ
Расположение файла подкачки: C:\pagefile.sys
Домен: OIT
Сервер входа: \\SERVER1
Исправление(я): Установлено 31 исправление(я).
                           [01]: КБ2843630
                           [02]: КБ2862152
                           [03]: КБ2868626
                           [04]: KB2876331
                           [05]: КБ2883200
                           [06]: КБ2884846
                           [07]: KB2887595
                           [08]: KB2892074
                           [09]: KB2893294
                           [10]: KB2894179
                           [11]: KB2898514
                           [12]: KB2898871
                           [13]: KB2901101
                           [14]: KB2901128
                           [15]: KB2903939
                           [16]: KB2904266
                           [17]: KB2908174
                           [18]: KB2909210
                           [19]: KB2911106
                           [20]: KB2913760
                           [21]: KB2916036
                           [22]: KB2917929
                           [23]: KB2919394
                           [24]: KB2919442
                           [25]: KB2922229
                           [26]: КБ2923300
                           [27]: KB2923768
                           [28]: KB2928193
                           [29]: KB2928680
                           [30]: KB2930275
                           [31]: KB2939087
Сетевые карты: установлено 3 сетевых карты.
                           [01]: Broadcom NetXtreme Gigabit Ethernet
                                 Имя подключения: NIC1
                                 DHCP включен: нет
                                 IP-адрес(а)
                           [02]: Broadcom NetXtreme Gigabit Ethernet
                                 Имя подключения: NIC2
                                 DHCP включен: Да
                                 DHCP-сервер: 192.168.1.12
                                 IP-адрес(а)
                                 [01]: 192.168.1.135
                                 [02]: fe80::915b:8de0:712e:29f1
                           [03]: Виртуальный Ethernet-адаптер Hyper-V
                                 Имя подключения: vEthernet (внешний сетевой адаптер 1_внутренний)
                                 DHCP включен: нет
                                 IP-адрес(а)
                                 [01]: 192.168.1.11
                                 [02]: fe80::2d35:f582:4958:9eb2
Требования Hyper-V: Обнаружен гипервизор. Функции, необходимые для Hyper-V, не будут отображаться.

== ПРАВКА =======================

Я нашел решение этой проблемы; я ждал больше года, чтобы убедиться, что мы больше не столкнемся с этой проблемой.

Модераторы: Я хотел бы попросить повторно открыть вопрос, чтобы я мог опубликовать ответ.

решение1

После года ожидания, необходимого для подтверждения правильности решения, я наконец-то могу опубликовать этот ответ.

В настройках BIOS Dell по умолчанию включены C-States, что переводит компьютер в режим низкого энергопотребления во время простоя. Это то, что заставляет виртуальные машины достигать 100% загрузки ЦП на хосте гипервизора (включая VMWare, Citrix).

Решением является установка параметра «Профиль системы» в BIOS на значение «Производительность», а не «Производительность на ватт» [ОС] или «Производительность на ватт» [DAPC] (последнее значение установлено по умолчанию).

Соответствующая документация Dell, стр. 3:

http://en.community.dell.com/techcenter/extras/m/white_papers/20161975/download

А это ответ одного из немногих инженеров службы поддержки Dell, который знаком с этой проблемой:

Короткая версия: C-States отключают дополнительные ядра процессора во время простоя. Для виртуальных машин, привязанных к ядру (это контролируется ОС, я не думаю, что это можно настроить), это может привести к их блокировке, поскольку они пытаются выполнить действия с ресурсами, которых больше не существует в их глазах.

В целом, C-состояния обычно используются на таких объектах, как серверы резервного копирования, серверы вторичной роли (резервные DNS, DHCP, контроллеры домена и т. д.), чтобы серверы резервного копирования могли оставаться включенными, но в режиме пониженного энергопотребления для экономии энергии.

Дополнительную документацию можно найти здесь:

http://en.wikipedia.org/wiki/Расширенная_конфигурация_и_интерфейс_питания

Короче говоря, на сервере Dell режим простоя всегда должен быть отключен (установлен на «Производительность») для хостов гипервизора.

Благодарю Эдди Саймонса из Kitsap Bank за помощь в поиске этого решения.

решение2

Неясно, в чем проблема; вы уже знаете это. У нас нет возможности сказать вам, в чем причина.

Однако вы можете провести некоторые тесты:

  • Построить ВМ 1

    • Постоянно запускать ресурсоемкую задачу на этой виртуальной машине
      (выполнять миллионы сложных математических вычислений в секунду)
  • Построить ВМ 2

    • Постоянно запускать на этой виртуальной машине задачу, интенсивно использующую оперативную память
      (создать гигантский массив в памяти, удалить его, повторить)
  • Построить ВМ 3

    • Постоянно запускать ресурсоемкую задачу DISK на этой виртуальной машине
      (чтение/запись/удаление миллионов строк в/из файла)
  • Сборка ВМ 4

    • Постоянно выполнять ресурсоемкую СЕТЕВУЮ задачу на этой виртуальной машине
      (копирование файлов в/из общего ресурса SMB)

Подождите, пока проблема не возникнет снова, просмотрите данные о производительности на каждом из этих серверов.
Какой пострадал больше всего?
Были ли какие-то, которые вообще не пострадали?

Я предполагаю, что ваши диски плохие, и ЦП ждет завершения операций ввода-вывода, прежде чем продолжить работу, из-за чего некоторые приложения могут вырубить ЦП.

решение3

Рад, что нашел это. У меня есть сервер 2012R2 с Hyper-v. AMD, 6-ядерный процессор. Он работал отлично больше года. Внезапно я начал видеть виртуальные машины, к которым невозможно подключиться — ни с помощью RDP, ни с помощью Hyper-V. Единственным вариантом было ВЫКЛЮЧИТЬ виртуальную машину. Выключение не дало ответа. Так что... выдерните виртуальную вилку из розетки. Включите.

Симптомом было то, что отдельная машина, по-видимому, использовала 100% выделенных ей ресурсов ЦП (например, одноядерная виртуальная машина на шестиядерном хосте использовала 16%).

Проблема была спорадической. Никакой очевидной закономерности или причины.

Наконец, мне пришло в голову, что это совпало с моей неудачной попыткой обновиться с 32 до 64 ГБ на этой материнской плате. ЭТА проблема была в том, что я мог заставить 1, 2 или 3 планки памяти по 16 ГБ работать для 16, 32 или 48 ГБ, но не четыре планки для 64 ГБ. Много возни с настройками BIOS и т. д. Никакой радости на этом фронте. Вот тогда я обнаружил замечательную функцию на виртуальной машине для включения динамической памяти. Оказывается, я все-таки смогу прожить без 64 ​​гигабайт!!

Предполагаю, что я включил управление питанием процессора во время своих экспериментов, и тогда возникла эта проблема.

Я отключил APM в биосе. Пройдет пара дней, прежде чем я буду на 60% уверен, что это исправило проблему. Пара недель, чтобы объявить о победе. Но это, ПО-ВИДИМОМУ, является веской причиной проблемы.

Прошло уже 24 часа, и пока все хорошо.

Скрещенные пальцы.

Спасибо за информацию!!

Связанный контент