Problemas de replicação do MySQL após uma queda de energia

Question 1

Eu optei pela primeira opção.

Isso funcionou até o ponto em que o escravo começou a tentar fazer inserções que conflitavam com as chaves primárias. O escravo fez mais trabalho do que o log-bin mestre persistiu, como mencionado anteriormente. Um aspecto que não previ foi que o escravo continha dados que não estavam no mestre; ou seja, o escravo persistiu algumas transações antes da queda de energia que o mestreNÃO TINHApersistiu.

Como no meu caso essas transações não eram relacionadas a pagamentos ou similares, optei por deletar os dados do escravo (perdendo assim alguns dados que haviam acontecido, mas que não existiam no mestre) e depois deixei a replicação rodar novamente . Isso atualizou completamente os escravos. Se os dados fossem mais importantes, teríamos compensações de incremento automático suficientes para nos dar alguma margem de manobra para organizar manualmente os dados e garantir que a integridade referencial não fosse comprometida. Felizmente não precisamos fazer isso neste caso.

Para uma máquina em configuração mestre-mestre (passiva) que estava nessa situação, escolhi uma abordagem semelhante. Por mestre-mestre passivo, quero dizer que temos um mestre ativo (servidorA), que é para onde vão todas as gravações, e um mestre passivo (servidorB) que está em vigor para permitir que as atualizações do esquema ocorram sem tempo de inatividade. Os dados do mestre ativo (serverA) foram escolhidos como valores verdadeiros, apesar de sabermos que isso significava que perdemos algumas transações persistentes que não foram consideradas importantes.

Alterado o arquivo de log e posição no escravo.

CHANGE MASTER MASTER_LOG_FILE='bin-log.004713', MASTER_LOG_POS=0; -- on serverB

Reiniciada a replicação do escravo no mestre passivo (servidorB) até falhar com violações de restrição de chave primária, como acontece com os outros escravos.
```
 START SLAVE; -- on serverB
```
Replicação escrava interrompida do mestre passivo (servidorB) para o mestre ativo (servidorA).
```
STOP SLAVE; -- on serverA
```

DELETE as linhas do escravo (servidorB) que não existiam no mestre do servidorA.

DELETE FROM SOME_TABLE WHERE ID IN (???,????); -- on serverB
SHOW MASTER STATUS\G; -- get the new master log position on serverB

Mova a posição exec do escravo mestre ativo (servidorA) para ignorar essas exclusões do mestre passivo (servidorB).
```
CHANGE MASTER TO MASTER_LOG_POS=???; --on serverA; use the value just obtained from serverB
```

Reinicie a replicação no mestre ativo (serverA) e no mestre passivo.

START SLAVE; -- on both machines. serverA does nothing and serverB starts catching up.

Answer

Eu optei pela primeira opção.

Isso funcionou até o ponto em que o escravo começou a tentar fazer inserções que conflitavam com as chaves primárias. O escravo fez mais trabalho do que o log-bin mestre persistiu, como mencionado anteriormente. Um aspecto que não previ foi que o escravo continha dados que não estavam no mestre; ou seja, o escravo persistiu algumas transações antes da queda de energia que o mestreNÃO TINHApersistiu.

Como no meu caso essas transações não eram relacionadas a pagamentos ou similares, optei por deletar os dados do escravo (perdendo assim alguns dados que haviam acontecido, mas que não existiam no mestre) e depois deixei a replicação rodar novamente . Isso atualizou completamente os escravos. Se os dados fossem mais importantes, teríamos compensações de incremento automático suficientes para nos dar alguma margem de manobra para organizar manualmente os dados e garantir que a integridade referencial não fosse comprometida. Felizmente não precisamos fazer isso neste caso.

Para uma máquina em configuração mestre-mestre (passiva) que estava nessa situação, escolhi uma abordagem semelhante. Por mestre-mestre passivo, quero dizer que temos um mestre ativo (servidorA), que é para onde vão todas as gravações, e um mestre passivo (servidorB) que está em vigor para permitir que as atualizações do esquema ocorram sem tempo de inatividade. Os dados do mestre ativo (serverA) foram escolhidos como valores verdadeiros, apesar de sabermos que isso significava que perdemos algumas transações persistentes que não foram consideradas importantes.

Alterado o arquivo de log e posição no escravo.

CHANGE MASTER MASTER_LOG_FILE='bin-log.004713', MASTER_LOG_POS=0; -- on serverB

Reiniciada a replicação do escravo no mestre passivo (servidorB) até falhar com violações de restrição de chave primária, como acontece com os outros escravos.
```
 START SLAVE; -- on serverB
```
Replicação escrava interrompida do mestre passivo (servidorB) para o mestre ativo (servidorA).
```
STOP SLAVE; -- on serverA
```

DELETE as linhas do escravo (servidorB) que não existiam no mestre do servidorA.

DELETE FROM SOME_TABLE WHERE ID IN (???,????); -- on serverB
SHOW MASTER STATUS\G; -- get the new master log position on serverB

Mova a posição exec do escravo mestre ativo (servidorA) para ignorar essas exclusões do mestre passivo (servidorB).
```
CHANGE MASTER TO MASTER_LOG_POS=???; --on serverA; use the value just obtained from serverB
```

Reinicie a replicação no mestre ativo (serverA) e no mestre passivo.

START SLAVE; -- on both machines. serverA does nothing and serverB starts catching up.

Question 2

Dependeria da importância de os escravos serem réplicas exatas do mestre. Sua primeira opção funcionará até certo ponto, mas os escravos podem muito bem estar perdendo informações do mestre. Se você consegue conviver com isso porque os dados são transitórios ou algo assim, vá em frente. Se for importante que os escravos sejam réplicas adequadas, então a segunda opção é provavelmente sua única opção. Infelizmente, a replicação do MySQL não aceita nenhum tipo de interrupção inesperada. Descobri que esses tipos de problemas são muito mais frequentes do que gostaria em minha arquitetura de replicação.

Answer

Dependeria da importância de os escravos serem réplicas exatas do mestre. Sua primeira opção funcionará até certo ponto, mas os escravos podem muito bem estar perdendo informações do mestre. Se você consegue conviver com isso porque os dados são transitórios ou algo assim, vá em frente. Se for importante que os escravos sejam réplicas adequadas, então a segunda opção é provavelmente sua única opção. Infelizmente, a replicação do MySQL não aceita nenhum tipo de interrupção inesperada. Descobri que esses tipos de problemas são muito mais frequentes do que gostaria em minha arquitetura de replicação.

Problemas de replicação do MySQL após uma queda de energia

Responder1

Responder2

informação relacionada