Проблемы репликации MySQL после отключения электроэнергии

Question 1

Я выбрал первый вариант.

Это работало до тех пор, пока подчиненный сервер не начал пытаться делать вставки, которые конфликтовали с первичными ключами. Подчиненный сервер выполнил больше работы, чем сохранил главный bin-log, как упоминалось ранее. Один аспект, который я не ожидал, заключался в том, что подчиненный сервер содержал данные, которых не было в главном сервере; т. е. подчиненный сервер сохранил некоторые транзакции до отключения питания, которое главный серверНЕ ИМЕЛупорствовал.

Поскольку в моем случае эти транзакции не были связаны с платежами или чем-то подобным, я решил удалить данные с подчиненного сервера (тем самым потеряв некоторые данные, которые были сделаны, но которых не было в главном сервере), а затем снова запустить репликацию. Это полностью обновило подчиненные серверы. Если бы данные были более важными, у нас были бы автоинкрементные смещения, достаточные для того, чтобы дать нам некоторое пространство для маневра для ручной обработки данных и обеспечения того, чтобы ссылочная целостность не была скомпрометирована. К счастью, в этом случае нам не пришлось этого делать.

Для машины в (пассивной) конфигурации master-master, которая оказалась в таком затруднительном положении, я выбрал похожий подход. Под пассивным master-master я подразумеваю, что у нас есть активный master (serverA), куда поступают все записи, и пассивный master (serverB), который позволяет обновлениям схемы происходить с нулевым временем простоя. Данные в активном master (serverA) были выбраны в качестве истинных значений, несмотря на то, что мы знали, что это означает потерю нескольких сохраненных транзакций, которые не считались важными.

Изменен файл журнала и положение на подчиненном устройстве.
```
CHANGE MASTER MASTER_LOG_FILE='bin-log.004713', MASTER_LOG_POS=0; -- on serverB
```
Перезапустил подчиненную репликацию на пассивном главном сервере (serverB) до тех пор, пока она не вышла из строя из-за нарушений ограничений первичного ключа, как и в случае с другими подчиненными серверами.
```
 START SLAVE; -- on serverB
```
Остановлена репликация подчиненного сервера с пассивного главного сервера (serverB) на активный главный сервер (serverA).
```
STOP SLAVE; -- on serverA
```
УДАЛИТЕ строки на подчиненном сервере (serverB), которых не было на главном сервере serverA.
```
DELETE FROM SOME_TABLE WHERE ID IN (???,????); -- on serverB
SHOW MASTER STATUS\G; -- get the new master log position on serverB
```
Переместите позицию ведомого exec активного главного сервера (сервера A), чтобы пропустить удаления с пассивного главного сервера (сервера B).
```
CHANGE MASTER TO MASTER_LOG_POS=???; --on serverA; use the value just obtained from serverB
```
Перезапустите репликацию на активном главном сервере (serverA) и пассивном главном сервере.
```
START SLAVE; -- on both machines. serverA does nothing and serverB starts catching up.
```

Answer

Я выбрал первый вариант.

Это работало до тех пор, пока подчиненный сервер не начал пытаться делать вставки, которые конфликтовали с первичными ключами. Подчиненный сервер выполнил больше работы, чем сохранил главный bin-log, как упоминалось ранее. Один аспект, который я не ожидал, заключался в том, что подчиненный сервер содержал данные, которых не было в главном сервере; т. е. подчиненный сервер сохранил некоторые транзакции до отключения питания, которое главный серверНЕ ИМЕЛупорствовал.

Поскольку в моем случае эти транзакции не были связаны с платежами или чем-то подобным, я решил удалить данные с подчиненного сервера (тем самым потеряв некоторые данные, которые были сделаны, но которых не было в главном сервере), а затем снова запустить репликацию. Это полностью обновило подчиненные серверы. Если бы данные были более важными, у нас были бы автоинкрементные смещения, достаточные для того, чтобы дать нам некоторое пространство для маневра для ручной обработки данных и обеспечения того, чтобы ссылочная целостность не была скомпрометирована. К счастью, в этом случае нам не пришлось этого делать.

Для машины в (пассивной) конфигурации master-master, которая оказалась в таком затруднительном положении, я выбрал похожий подход. Под пассивным master-master я подразумеваю, что у нас есть активный master (serverA), куда поступают все записи, и пассивный master (serverB), который позволяет обновлениям схемы происходить с нулевым временем простоя. Данные в активном master (serverA) были выбраны в качестве истинных значений, несмотря на то, что мы знали, что это означает потерю нескольких сохраненных транзакций, которые не считались важными.

Изменен файл журнала и положение на подчиненном устройстве.
```
CHANGE MASTER MASTER_LOG_FILE='bin-log.004713', MASTER_LOG_POS=0; -- on serverB
```
Перезапустил подчиненную репликацию на пассивном главном сервере (serverB) до тех пор, пока она не вышла из строя из-за нарушений ограничений первичного ключа, как и в случае с другими подчиненными серверами.
```
 START SLAVE; -- on serverB
```
Остановлена репликация подчиненного сервера с пассивного главного сервера (serverB) на активный главный сервер (serverA).
```
STOP SLAVE; -- on serverA
```
УДАЛИТЕ строки на подчиненном сервере (serverB), которых не было на главном сервере serverA.
```
DELETE FROM SOME_TABLE WHERE ID IN (???,????); -- on serverB
SHOW MASTER STATUS\G; -- get the new master log position on serverB
```
Переместите позицию ведомого exec активного главного сервера (сервера A), чтобы пропустить удаления с пассивного главного сервера (сервера B).
```
CHANGE MASTER TO MASTER_LOG_POS=???; --on serverA; use the value just obtained from serverB
```
Перезапустите репликацию на активном главном сервере (serverA) и пассивном главном сервере.
```
START SLAVE; -- on both machines. serverA does nothing and serverB starts catching up.
```

Question 2

Это будет зависеть от того, насколько важно, чтобы подчиненные серверы были точными копиями главного сервера. Ваш первый вариант будет работать в определенной степени, но подчиненные серверы вполне могут не иметь информации от главного сервера. Если вы можете с этим смириться, потому что данные являются временными или что-то в этом роде, тогда выбирайте его. Если важно, чтобы подчиненные серверы были правильными репликами, то второй вариант, вероятно, ваш единственный выбор. К сожалению, репликация MySQL не любит никаких неожиданных прерываний, я обнаружил, что такие проблемы возникают гораздо чаще, чем мне бы хотелось, в моей архитектуре репликации.

Answer

Это будет зависеть от того, насколько важно, чтобы подчиненные серверы были точными копиями главного сервера. Ваш первый вариант будет работать в определенной степени, но подчиненные серверы вполне могут не иметь информации от главного сервера. Если вы можете с этим смириться, потому что данные являются временными или что-то в этом роде, тогда выбирайте его. Если важно, чтобы подчиненные серверы были правильными репликами, то второй вариант, вероятно, ваш единственный выбор. К сожалению, репликация MySQL не любит никаких неожиданных прерываний, я обнаружил, что такие проблемы возникают гораздо чаще, чем мне бы хотелось, в моей архитектуре репликации.

Проблемы репликации MySQL после отключения электроэнергии

решение1

решение2

Связанный контент