
Estoy luchando por entender el concepto de dominio de falla/actualización en Azure, cualquier ayuda sería apreciada. He aprovisionado 2 máquinas virtuales bajo el mismo conjunto de disponibilidad con 2 dominios de error y 2 dominios de actualización respectivamente:
Fault Domain Update Domain
server_iis1 0 0
server_iis2 1 1
Como sé, Fault Domain en realidad es un bastidor, sin embargo, los siguientes puntos me confunden:
Si pierdo por completo el dominio de falla 0, ¿server_iis1 desaparecerá? ¿Dónde está ubicada la segunda instancia de server_iis1 que debería estar operativa en caso de una falla del rack (dominio de falla 0) que me proporcionará un SLA del 99,95 %?
Del mismo modo, para server_iis2, si pierdo el dominio de error 1, ¿cómo se supone que debe estar funcionando server_iis2?
Server_iis1 y Server_iis2 son 2 máquinas virtuales completamente diferentes con diferentes datos y clientes a los que atender.
Respuesta1
Los dominios de falla están diseñados para proteger su carga de trabajo (aplicaciones que se ejecutan en una máquina virtual) en caso de fallas inesperadas de hardware. En el ejemplo anterior, iis1 e iis2 son dos máquinas virtuales independientes que se ejecutan en el mismo centro de datos físico (zona de disponibilidad) pero se encuentran en dominios de error diferentes. Lo que esto significa es que si por alguna razón falla algún componente físico de la infraestructura de soporte de la máquina virtual (fuente de alimentación del rack, conmutador, host físico, etc.), la otra máquina virtual iis permanecerá activa porque está ubicada en un grupo de hardware diferente (dominio de falla) en el mismo centro de datos.
Una cosa que no está tan clara para muchas personas es que su aplicación debe ser lo suficientemente inteligente como para ejecutarse en ambas máquinas simultáneamente. Si tengo una aplicación (excel como ejemplo muy básico (solo hazme el favor)) en iis1 y una aplicación diferente (powerpoint) en iis2, si iis1 deja de funcionar, perderás el acceso a la aplicación (excel) hasta que la máquina virtual conmute por error a otra. host, lo que puede tardar unos minutos. Y viceversa para iis2, si se bajara perderías (powerpoint). Para que los dominios de falla realmente funcionen, necesitaría Excel y PowerPoint ejecutándose tanto en iis1 como en iis2, de modo que si una máquina virtual falla, la otra aún puede servir la aplicación y, por supuesto, su aplicación deberá ser lo suficientemente inteligente como para manejar la falla/conmutación por error.
Muuuchos dominios de fallas protegen contra fallas inesperadas e imprevistas en la infraestructura.
Los dominios de actualización están diseñados para garantizar que durante las ventanas de mantenimiento (ya sea iniciadas por el cliente o por Microsoft) no reiniciemos/actualicemos todas las máquinas a la vez.
Como ejemplo, si tuviera 5 servidores web front-end conectados a 5 servidores back-end, colocaría los 5 servidores front-end en el mismo dominio de actualización para que nunca se reinicien al mismo tiempo, asegurando que siempre pueda atender el tráfico web. Eso también se aplica a mis servidores backend. Los pondría juntos en un dominio de actualización para garantizar que nunca se reinicien todos al mismo tiempo. Hacer esto garantiza que mantendré los servidores en funcionamiento aunque estén degradados durante las ventanas de mantenimiento.
Los conjuntos de disponibilidad proporcionan un SLA del 99,95 %. Las zonas de disponibilidad proporcionan un SLA del 99,99 %
La implementación de su máquina virtual en una zona de disponibilidad la replicará en otro centro de datos físico (zona). Esta conmutación por error se produce automáticamente sin que el cliente tenga que hacer nada si algo se rompe.
El conjunto de disponibilidad es más barato para implementar zonas de disponibilidad y cuesta más porque no solo tiene los costos de VM, sino que también tiene costos asociados con la replicación de datos entre zonas, sino que estamos hablando de centavos por dólar.
Espero que ayude