Как ускорить автоматическое переключение кластера Hyper-V 2012 на резервный ресурс?

Question

Оглядываясь назад, я думаю, что я должен был знать. Ответ состоит из двух частей, потому что, по моему мнению, есть запланированный отказ и «реальный»/незапланированный отказ — и запланированный отказ не считается.

Плановый отказ

Плановый отказ на самом деле заключается в том, что система кластеризации просто опустошает узел, а затем перезагружает его для вас. Поэтому, когда вы напрямую перезагружаете узел через RDP или «Остановить службу кластера» в графическом интерфейсе приложения кластеризации, первое, что происходит, — это отключение виртуальной машины в режиме Live Migrated. Поскольку вы на самом деле просто выполняете живую миграцию виртуальных машин, время, которое это займет, зависит от того, что нужно перенести, и от сетевого подключения. Если у вас сетевой адаптер 1 Гбит, это займет некоторое время (~118 МБ/с). Чем больше оперативной памяти у ваших виртуальных машин, темВам больше подойдут более быстрые сетевые карты.

Реальное аварийное переключение

Незапланированный/"реальный" отказ происходит, когда вы отключаете машину. В этом случае кластерная система автоматически запускает ВМ на другом узле. Поведение для внешнего мира такое же, как если бы вы перезагрузили ВМ. Для ВМ это то же самое, как если бы вы "выключили" ее, а затем снова запустили. Поэтому "реальный" отказ всегда будет зависеть от того, сколько времени потребуется вашим ВМ для загрузки.

Тангенс

Это меня разочаровывает, концептуально, потому что мне кажется, что все разговоры о кластеризации в сети предполагают, что ("жесткий") отказ узла скрыт системой кластеризации --- предполагается, что сервисы никогда не выходили из строя. Вероятно, это распространяется тем фактом, что все веб-страницы, которые я помню, читали, тестировали отказ кластера в программном обеспечении (запланированный отказ). Так что все, что они на самом деле делают, это доказывают, что Live Migration работает так, как рекламируется (никакого простоя с точки зрения клиента).

Моя главная ошибка заключалась в непонимании самого отказа. Помимо концепции горячего/теплого/холодного резервного сервера, где автоматический отказ происходит на горячем сервере, есть еще и горячий/теплый/холодный отказ. Как уже упоминалосьздесь, горячее аварийное переключение происходит мгновенно, теплое аварийное переключение измеряется в секундах, а холодное аварийное переключение измеряется в минутах. Я был наивен, предполагая, что все автоматические отказы являются «горячими». Думаю, я ожидал какой-то магии с ОЗУ, когда кластер будет обновлять копию ОЗУ виртуальной машины на другом узле — что-то вроде доставки журнала транзакций с SQL Server. Но для этого потребовался бы канал связи между машинами, который был бы по крайней мере таким же быстрым, как ОЗУ, чтобы гарантировать его работу.

Answer 1

Оглядываясь назад, я думаю, что я должен был знать. Ответ состоит из двух частей, потому что, по моему мнению, есть запланированный отказ и «реальный»/незапланированный отказ — и запланированный отказ не считается.

Плановый отказ

Плановый отказ на самом деле заключается в том, что система кластеризации просто опустошает узел, а затем перезагружает его для вас. Поэтому, когда вы напрямую перезагружаете узел через RDP или «Остановить службу кластера» в графическом интерфейсе приложения кластеризации, первое, что происходит, — это отключение виртуальной машины в режиме Live Migrated. Поскольку вы на самом деле просто выполняете живую миграцию виртуальных машин, время, которое это займет, зависит от того, что нужно перенести, и от сетевого подключения. Если у вас сетевой адаптер 1 Гбит, это займет некоторое время (~118 МБ/с). Чем больше оперативной памяти у ваших виртуальных машин, темВам больше подойдут более быстрые сетевые карты.

Реальное аварийное переключение

Незапланированный/"реальный" отказ происходит, когда вы отключаете машину. В этом случае кластерная система автоматически запускает ВМ на другом узле. Поведение для внешнего мира такое же, как если бы вы перезагрузили ВМ. Для ВМ это то же самое, как если бы вы "выключили" ее, а затем снова запустили. Поэтому "реальный" отказ всегда будет зависеть от того, сколько времени потребуется вашим ВМ для загрузки.

Тангенс

Это меня разочаровывает, концептуально, потому что мне кажется, что все разговоры о кластеризации в сети предполагают, что ("жесткий") отказ узла скрыт системой кластеризации --- предполагается, что сервисы никогда не выходили из строя. Вероятно, это распространяется тем фактом, что все веб-страницы, которые я помню, читали, тестировали отказ кластера в программном обеспечении (запланированный отказ). Так что все, что они на самом деле делают, это доказывают, что Live Migration работает так, как рекламируется (никакого простоя с точки зрения клиента).

Моя главная ошибка заключалась в непонимании самого отказа. Помимо концепции горячего/теплого/холодного резервного сервера, где автоматический отказ происходит на горячем сервере, есть еще и горячий/теплый/холодный отказ. Как уже упоминалосьздесь, горячее аварийное переключение происходит мгновенно, теплое аварийное переключение измеряется в секундах, а холодное аварийное переключение измеряется в минутах. Я был наивен, предполагая, что все автоматические отказы являются «горячими». Думаю, я ожидал какой-то магии с ОЗУ, когда кластер будет обновлять копию ОЗУ виртуальной машины на другом узле — что-то вроде доставки журнала транзакций с SQL Server. Но для этого потребовался бы канал связи между машинами, который был бы по крайней мере таким же быстрым, как ОЗУ, чтобы гарантировать его работу.

Как ускорить автоматическое переключение кластера Hyper-V 2012 на резервный ресурс?

решение1

Плановый отказ

Реальное аварийное переключение

Тангенс

Связанный контент