Problemas de replicación de MySQL después de un corte de energía

Question 1

Fui por la primera opción.

Eso funcionó hasta el punto en que el esclavo comenzó a intentar realizar inserciones que entraban en conflicto con las claves principales. El esclavo había hecho más trabajo del que el maestro bin-log había persistido, como se mencionó anteriormente. Un aspecto que no anticipé fue que el esclavo contenía datos que no estaban en el maestro; es decir, el esclavo persistió en algunas transacciones antes del corte de energía que el maestroNO HApersistió.

Dado que, en mi caso, estas transacciones no estaban relacionadas con pagos o similares, elegí eliminar los datos del esclavo (perdiendo así algunos datos que habían sucedido, pero que no existían en el maestro) y luego dejé que la replicación se ejecutara nuevamente. . Esto actualizó por completo a los esclavos. Si los datos hubieran sido más importantes, tenemos compensaciones de incremento automático suficientes para darnos cierto margen de maniobra para manipular manualmente los datos y garantizar que la integridad referencial no se vea comprometida. Afortunadamente, no necesitábamos hacer eso en este caso.

Para una máquina en configuración maestro-maestro (pasiva) que se encontraba en esta situación, elegí un enfoque similar. Por maestro-maestro pasivo, quiero decir que tenemos un maestro activo (servidorA) que es donde van todas las escrituras, y un maestro pasivo (servidorB) que está implementado para permitir que se realicen actualizaciones del esquema sin tiempo de inactividad. Los datos en el maestro activo (servidorA) se eligieron como valores verdaderos, a pesar de saber que esto significaba que perdimos un par de transacciones persistentes que no se consideraron importantes.

Se modificó el archivo de registro y la posición en el esclavo.

CHANGE MASTER MASTER_LOG_FILE='bin-log.004713', MASTER_LOG_POS=0; -- on serverB

Se reinició la replicación de esclavos en el maestro pasivo (servidorB) hasta que falló con violaciones de restricciones de clave primaria, al igual que con los otros esclavos.
```
 START SLAVE; -- on serverB
```
Se detuvo la replicación de esclavos desde el maestro pasivo (servidorB) al maestro activo (servidorA).
```
STOP SLAVE; -- on serverA
```

BORRAR las filas en el esclavo (servidorB) que no existían en el maestro en el servidorA.

DELETE FROM SOME_TABLE WHERE ID IN (???,????); -- on serverB
SHOW MASTER STATUS\G; -- get the new master log position on serverB

Mueva la posición ejecutiva del esclavo maestro activo (servidorA) para omitir esas eliminaciones del maestro pasivo (servidorB).
```
CHANGE MASTER TO MASTER_LOG_POS=???; --on serverA; use the value just obtained from serverB
```
Reinicie la replicación tanto en el maestro activo (servidorA) como en el maestro pasivo.
```
START SLAVE; -- on both machines. serverA does nothing and serverB starts catching up.
```

Answer

Fui por la primera opción.

Eso funcionó hasta el punto en que el esclavo comenzó a intentar realizar inserciones que entraban en conflicto con las claves principales. El esclavo había hecho más trabajo del que el maestro bin-log había persistido, como se mencionó anteriormente. Un aspecto que no anticipé fue que el esclavo contenía datos que no estaban en el maestro; es decir, el esclavo persistió en algunas transacciones antes del corte de energía que el maestroNO HApersistió.

Dado que, en mi caso, estas transacciones no estaban relacionadas con pagos o similares, elegí eliminar los datos del esclavo (perdiendo así algunos datos que habían sucedido, pero que no existían en el maestro) y luego dejé que la replicación se ejecutara nuevamente. . Esto actualizó por completo a los esclavos. Si los datos hubieran sido más importantes, tenemos compensaciones de incremento automático suficientes para darnos cierto margen de maniobra para manipular manualmente los datos y garantizar que la integridad referencial no se vea comprometida. Afortunadamente, no necesitábamos hacer eso en este caso.

Para una máquina en configuración maestro-maestro (pasiva) que se encontraba en esta situación, elegí un enfoque similar. Por maestro-maestro pasivo, quiero decir que tenemos un maestro activo (servidorA) que es donde van todas las escrituras, y un maestro pasivo (servidorB) que está implementado para permitir que se realicen actualizaciones del esquema sin tiempo de inactividad. Los datos en el maestro activo (servidorA) se eligieron como valores verdaderos, a pesar de saber que esto significaba que perdimos un par de transacciones persistentes que no se consideraron importantes.

Se modificó el archivo de registro y la posición en el esclavo.

CHANGE MASTER MASTER_LOG_FILE='bin-log.004713', MASTER_LOG_POS=0; -- on serverB

Se reinició la replicación de esclavos en el maestro pasivo (servidorB) hasta que falló con violaciones de restricciones de clave primaria, al igual que con los otros esclavos.
```
 START SLAVE; -- on serverB
```
Se detuvo la replicación de esclavos desde el maestro pasivo (servidorB) al maestro activo (servidorA).
```
STOP SLAVE; -- on serverA
```

BORRAR las filas en el esclavo (servidorB) que no existían en el maestro en el servidorA.

DELETE FROM SOME_TABLE WHERE ID IN (???,????); -- on serverB
SHOW MASTER STATUS\G; -- get the new master log position on serverB

Mueva la posición ejecutiva del esclavo maestro activo (servidorA) para omitir esas eliminaciones del maestro pasivo (servidorB).
```
CHANGE MASTER TO MASTER_LOG_POS=???; --on serverA; use the value just obtained from serverB
```
Reinicie la replicación tanto en el maestro activo (servidorA) como en el maestro pasivo.
```
START SLAVE; -- on both machines. serverA does nothing and serverB starts catching up.
```

Question 2

Dependería de lo importante que sea que el esclavo sea réplica exacta del maestro. Su primera opción funcionará hasta cierto punto, pero es muy posible que a los esclavos les falte información del maestro. Si puedes vivir con eso porque los datos son transitorios o algo así, entonces hazlo. Si es importante que los esclavos sean réplicas adecuadas, entonces la segunda opción es probablemente su única opción. Desafortunadamente, la replicación de MySQL no acepta ningún tipo de interrupción inesperada. He descubierto que este tipo de problemas son mucho más frecuentes de lo que me gustaría en mi arquitectura de replicación.

Answer

Dependería de lo importante que sea que el esclavo sea réplica exacta del maestro. Su primera opción funcionará hasta cierto punto, pero es muy posible que a los esclavos les falte información del maestro. Si puedes vivir con eso porque los datos son transitorios o algo así, entonces hazlo. Si es importante que los esclavos sean réplicas adecuadas, entonces la segunda opción es probablemente su única opción. Desafortunadamente, la replicación de MySQL no acepta ningún tipo de interrupción inesperada. He descubierto que este tipo de problemas son mucho más frecuentes de lo que me gustaría en mi arquitectura de replicación.

Problemas de replicación de MySQL después de un corte de energía

Respuesta1

Respuesta2

información relacionada