Red Hat 叢集：共用相同虛擬 IP 的兩個服務之一發生故障會導致 IP 中斷

Question 1

我認為您需要其他服務來維護此 IP。問題在於，當 SAN 服務失敗時，rgmanager會ip addr del <ip>在執行該服務的節點上發出。由於此 IP 是共享的，因此它已從其他服務中刪除。因此，您需要新增另一項服務，例如：

<service autostart="1" domain="<fo_domain_of_services>" name="floating_ip">
  <ip ref="your_ip" />
</service>

設定故障轉移域的方式很關鍵，如果操作錯誤，您最終會發現 IP 位於一個節點，而服務位於另一個節點。不幸的是，我目前沒有要測試的集群，但我認為您希望所有三個服務（需要 IP 的兩個服務和 IP 本身）位於一個受限制的故障轉移域中，優先級至少為1.

請始終記住，如果您要/etc/cluster/cluster.conf手動進行更改以增加版本號，然後用於ccs_tool update /etc/cluster/cluster.conf將配置推送到其他節點。另一件需要記住的事情是它ccs_tool正在被淘汰，但在 RHEL 5.4 中它應該仍然有效。另一個要記住的命令是，rg_test當您啟動/停止服務時，它可以讓您準確地看到叢集正在做什麼。設定調試等級並始終觀察日誌檔案。祝你好運！

Answer

我認為您需要其他服務來維護此 IP。問題在於，當 SAN 服務失敗時，rgmanager會ip addr del <ip>在執行該服務的節點上發出。由於此 IP 是共享的，因此它已從其他服務中刪除。因此，您需要新增另一項服務，例如：

<service autostart="1" domain="<fo_domain_of_services>" name="floating_ip">
  <ip ref="your_ip" />
</service>

設定故障轉移域的方式很關鍵，如果操作錯誤，您最終會發現 IP 位於一個節點，而服務位於另一個節點。不幸的是，我目前沒有要測試的集群，但我認為您希望所有三個服務（需要 IP 的兩個服務和 IP 本身）位於一個受限制的故障轉移域中，優先級至少為1.

請始終記住，如果您要/etc/cluster/cluster.conf手動進行更改以增加版本號，然後用於ccs_tool update /etc/cluster/cluster.conf將配置推送到其他節點。另一件需要記住的事情是它ccs_tool正在被淘汰，但在 RHEL 5.4 中它應該仍然有效。另一個要記住的命令是，rg_test當您啟動/停止服務時，它可以讓您準確地看到叢集正在做什麼。設定調試等級並始終觀察日誌檔案。祝你好運！

Question 2

您是否嘗試過將依賴磁碟的兩個服務放在自己的資源組中？

聽起來最好的做法是在偵測到故障時刪除 IP 和正在運行的服務，然後將 IP 和這兩個服務移至另一個叢集成員。

Answer

您是否嘗試過將依賴磁碟的兩個服務放在自己的資源組中？

聽起來最好的做法是在偵測到故障時刪除 IP 和正在運行的服務，然後將 IP 和這兩個服務移至另一個叢集成員。

Question 3

實現此目的的唯一方法是為不需要磁碟的服務提供自己的虛擬 IP 位址。

cluster.conf 現在看起來像這樣：

<?xml version="1.0" ?>
<cluster config_version="1" name="cluster">
  <fence_daemon clean_start="0" post_fail_delay="0" post_join_delay="3"/>
  <cman shutdown_timeout="10000"/>
  <clusternodes>
    <clusternode name="node1" nodeid="1" votes="1">
      <fence>
        <method name="1">
          <device name="device1"/>
        </method>
      </fence>
    </clusternode>
    <clusternode name="node2" nodeid="2" votes="1">
      <fence>
        <method name="1">
          <device name="device2"/>
        </method>
      </fence>
    </clusternode>
    <clusternode name="node3" nodeid="3" votes="1">
      <fence>
        <method name="1">
          <device name="device3"/>
        </method>
      </fence>
    </clusternode>
  </clusternodes>
  <fencedevices>
      <fencedevice agent="fence_ilo" ipaddr="10.0.24.101" login="admin" name="device1" passwd="password"/>
      <fencedevice agent="fence_ilo" ipaddr="10.0.24.102" login="admin" name="device2" passwd="password"/>
      <fencedevice agent="fence_ilo" ipaddr="10.0.24.103" login="admin" name="device3" passwd="password"/>
  </fencedevices>
  <rm>
    <failoverdomains>
      <failoverdomain name="domain1" nofailback="0">
        <failoverdomainnode name="node1" priority="1"/>
      </failoverdomain>
      <failoverdomain name="domain2" nofailback="0">
        <failoverdomainnode name="node2" priority="1"/>
      </failoverdomain>
    </failoverdomains>
    <resources>
      <ip address="10.0.24.111" monitor_link="1"/>
      <ip address="10.0.24.112" monitor_link="1"/>
      <ip address="10.0.24.113" monitor_link="1"/>
      <ip address="10.0.24.114" monitor_link="1"/>
    </resources>
    <service autostart="1" exclusive="0" name="disk1" recovery="restart" domain="domain1">
      <ip ref="10.0.24.111"/>
      <script file="/etc/init.d/disk1" name="disk1"/>
      <fs device="/dev/VolGroup10/LogVol10" force_fsck="0" force_unmount="1" fstype="ext3" mountpoint="/mnt/lun1" name="lun1" self_fence="1"/>
      <lvm lv_name="LogVol10" name="VolGroup10/LogVol10" vg_name="VolGroup10"/>
    </service>
    <service autostart="1" exclusive="0" name="nodisk1" recovery="restart" domain="domain1">
      <ip ref="10.0.24.112"/>
      <script file="/etc/init.d/nodisk1" name="nodisk1"/>
    </service>
    <service autostart="1" exclusive="0" name="disk2" recovery="restart" domain="domain2">
      <ip ref="10.0.24.113"/>
      <script file="/etc/init.d/disk2" name="disk2"/>
      <fs device="/dev/VolGroup20/LogVol20" force_fsck="0" force_unmount="1" fstype="ext3" mountpoint="/mnt/lun2" name="lun2" self_fence="1"/>
      <lvm lv_name="LogVol20" name="VolGroup20/LogVol20" vg_name="VolGroup20"/>
    </service>
    <service autostart="1" exclusive="0" name="nodisk2" recovery="restart" domain="domain2">
      <ip ref="10.0.24.114"/>
      <script file="/etc/init.d/nodisk2" name="nodisk2"/>
    </service>
  </rm>
</cluster>

Answer

實現此目的的唯一方法是為不需要磁碟的服務提供自己的虛擬 IP 位址。

cluster.conf 現在看起來像這樣：

<?xml version="1.0" ?>
<cluster config_version="1" name="cluster">
  <fence_daemon clean_start="0" post_fail_delay="0" post_join_delay="3"/>
  <cman shutdown_timeout="10000"/>
  <clusternodes>
    <clusternode name="node1" nodeid="1" votes="1">
      <fence>
        <method name="1">
          <device name="device1"/>
        </method>
      </fence>
    </clusternode>
    <clusternode name="node2" nodeid="2" votes="1">
      <fence>
        <method name="1">
          <device name="device2"/>
        </method>
      </fence>
    </clusternode>
    <clusternode name="node3" nodeid="3" votes="1">
      <fence>
        <method name="1">
          <device name="device3"/>
        </method>
      </fence>
    </clusternode>
  </clusternodes>
  <fencedevices>
      <fencedevice agent="fence_ilo" ipaddr="10.0.24.101" login="admin" name="device1" passwd="password"/>
      <fencedevice agent="fence_ilo" ipaddr="10.0.24.102" login="admin" name="device2" passwd="password"/>
      <fencedevice agent="fence_ilo" ipaddr="10.0.24.103" login="admin" name="device3" passwd="password"/>
  </fencedevices>
  <rm>
    <failoverdomains>
      <failoverdomain name="domain1" nofailback="0">
        <failoverdomainnode name="node1" priority="1"/>
      </failoverdomain>
      <failoverdomain name="domain2" nofailback="0">
        <failoverdomainnode name="node2" priority="1"/>
      </failoverdomain>
    </failoverdomains>
    <resources>
      <ip address="10.0.24.111" monitor_link="1"/>
      <ip address="10.0.24.112" monitor_link="1"/>
      <ip address="10.0.24.113" monitor_link="1"/>
      <ip address="10.0.24.114" monitor_link="1"/>
    </resources>
    <service autostart="1" exclusive="0" name="disk1" recovery="restart" domain="domain1">
      <ip ref="10.0.24.111"/>
      <script file="/etc/init.d/disk1" name="disk1"/>
      <fs device="/dev/VolGroup10/LogVol10" force_fsck="0" force_unmount="1" fstype="ext3" mountpoint="/mnt/lun1" name="lun1" self_fence="1"/>
      <lvm lv_name="LogVol10" name="VolGroup10/LogVol10" vg_name="VolGroup10"/>
    </service>
    <service autostart="1" exclusive="0" name="nodisk1" recovery="restart" domain="domain1">
      <ip ref="10.0.24.112"/>
      <script file="/etc/init.d/nodisk1" name="nodisk1"/>
    </service>
    <service autostart="1" exclusive="0" name="disk2" recovery="restart" domain="domain2">
      <ip ref="10.0.24.113"/>
      <script file="/etc/init.d/disk2" name="disk2"/>
      <fs device="/dev/VolGroup20/LogVol20" force_fsck="0" force_unmount="1" fstype="ext3" mountpoint="/mnt/lun2" name="lun2" self_fence="1"/>
      <lvm lv_name="LogVol20" name="VolGroup20/LogVol20" vg_name="VolGroup20"/>
    </service>
    <service autostart="1" exclusive="0" name="nodisk2" recovery="restart" domain="domain2">
      <ip ref="10.0.24.114"/>
      <script file="/etc/init.d/nodisk2" name="nodisk2"/>
    </service>
  </rm>
</cluster>

Red Hat 叢集：共用相同虛擬 IP 的兩個服務之一發生故障會導致 IP 中斷

答案1

答案2

答案3

相關內容