
Tenho uma instância do MySQL rodando em um servidor Ubuntu 12.04, equipado com 120 GB de RAM. Existem vários scripts PHP em execução nele, que às vezes definem novos parâmetros do MySQL. Um desses scripts usa grandes tabelas MEMORY para consolidar os dados antes de inseri-los nas tabelas MySISAM.
Ultimamente atualizei max_heap_table_size e tmp_table_size de 16 GB para 20 GB, para evitar erros de "tabela cheia". Como resultado, o MySQL travou durante a próxima execução do script.
Na verdade, ele primeiro gerou um rastreamento:
14:30:19 UTC - mysqld got signal 11 ;
This could be because you hit a bug. It is also possible that this binary
or one of the libraries it was linked against is corrupt, improperly built,
or misconfigured. This error can also be caused by malfunctioning hardware.
We will try our best to scrape up some info that will hopefully help
diagnose the problem, but since we have already crashed,
something is definitely wrong and this may fail.
key_buffer_size=536870912
read_buffer_size=131072
max_used_connections=85
max_threads=700
thread_count=82
connection_count=81
It is possible that mysqld could use up to
key_buffer_size + (read_buffer_size + sort_buffer_size)*max_threads = 2055554 K bytes of memory
Hope that's ok; if not, decrease some variables in the equation.
Thread pointer: 0x7ff66dbb4f30
Attempting backtrace. You can use the following information to find out
where mysqld died. If you see no messages after this, something went
terribly wrong...
stack_bottom = 7ff632b80e60 thread_stack 0x28000
/usr/sbin/mysqld(my_print_stacktrace+0x29)[0x7ff66b087589]
/usr/sbin/mysqld(handle_fatal_signal+0x483)[0x7ff66af4c9d3]
/lib/x86_64-linux-gnu/libpthread.so.0(+0xfcb0)[0x7ff669c96cb0]
/usr/sbin/mysqld(_Z10field_convP5FieldS0_+0x37)[0x7ff66af49077]
/usr/sbin/mysqld(_ZN10Item_field13save_in_fieldEP5Fieldb+0x46)[0x7ff66af599b6]
/usr/sbin/mysqld(_Z11fill_recordP3THDPP5FieldR4ListI4ItemEb+0x4e)[0x7ff66adf3afe]
/usr/sbin/mysqld(_ZN12select_union9send_dataER4ListI4ItemE+0x6f)[0x7ff66aea705f]
/usr/sbin/mysqld(+0x32c554)[0x7ff66ae5a554]
/usr/sbin/mysqld(+0x3225cf)[0x7ff66ae505cf]
/usr/sbin/mysqld(_Z10sub_selectP4JOINP13st_join_tableb+0x7e)[0x7ff66ae5255e]
/usr/sbin/mysqld(+0x335274)[0x7ff66ae63274]
/usr/sbin/mysqld(_ZN4JOIN4execEv+0xc03)[0x7ff66ae72ec3]
/usr/sbin/mysqld(_Z12mysql_selectP3THDPPP4ItemP10TABLE_LISTjR4ListIS1_ES2_jP8st_orderSB_S2_SB_yP13select_resultP18st_select_lex_unitP13st_select_lex+0x130)[0x7ff66ae6e610]
/usr/sbin/mysqld(_Z21mysql_derived_fillingP3THDP3LEXP10TABLE_LIST+0x121)[0x7ff66ae13671]
/usr/sbin/mysqld(_Z20mysql_handle_derivedP3LEXPFbP3THDS0_P10TABLE_LISTE+0x68)[0x7ff66ae130f8]
/usr/sbin/mysqld(_Z20open_and_lock_tablesP3THDP10TABLE_LISTbjP19Prelocking_strategy+0x11a)[0x7ff66adf7c9a]
/usr/sbin/mysqld(+0x2fac95)[0x7ff66ae28c95]
/usr/sbin/mysqld(_Z21mysql_execute_commandP3THD+0x16a6)[0x7ff66ae307f6]
/usr/sbin/mysqld(_Z11mysql_parseP3THDPcjP12Parser_state+0x10f)[0x7ff66ae35a0f]
/usr/sbin/mysqld(_Z16dispatch_command19enum_server_commandP3THDPcj+0x1e71)[0x7ff66ae37951]
/usr/sbin/mysqld(_Z24do_handle_one_connectionP3THD+0x1bd)[0x7ff66aeddd9d]
/usr/sbin/mysqld(handle_one_connection+0x50)[0x7ff66aedde00]
/lib/x86_64-linux-gnu/libpthread.so.0(+0x7e9a)[0x7ff669c8ee9a]
/lib/x86_64-linux-gnu/libc.so.6(clone+0x6d)[0x7ff6693bf3fd]
Trying to get some variables.
Some pointers may be invalid and cause the dump to abort.
Query (7fea98004a80): is an invalid pointer
Connection ID (thread ID): 15144
Status: NOT_KILLED
The manual page at http://dev.mysql.com/doc/mysql/en/crashing.html contains
information that should help you find out what is causing the crash.
A falha/reinicialização aconteceu uma hora depois:
131122 15:30:24 [Warning] Using unique option prefix myisam-recover instead of myisam-recover-options is deprecated and will be removed in a future release. Please use the full name instead.
131122 15:30:24 [Warning] Using unique option prefix myisam-recover instead of myisam-recover-options is deprecated and will be removed in a future release. Please use the full name instead.
131122 15:30:24 [Note] Plugin 'FEDERATED' is disabled.
131122 15:30:24 InnoDB: The InnoDB memory heap is disabled
131122 15:30:24 InnoDB: Mutexes and rw_locks use GCC atomic builtins
131122 15:30:24 InnoDB: Compressed tables use zlib 1.2.3.4
131122 15:30:24 InnoDB: Initializing buffer pool, size = 128.0M
131122 15:30:24 InnoDB: Completed initialization of buffer pool
131122 15:30:24 InnoDB: highest supported file format is Barracuda.
InnoDB: Log scan progressed past the checkpoint lsn 1319218667
131122 15:30:24 InnoDB: Database was not shut down normally!
InnoDB: Starting crash recovery.
Infelizmente, não tenho saídas de log binário ou de consulta lenta para postar aqui, mas o que posso dizer é que o script PHP continuou a ser executado após a produção do rastreamento de pilha. Parou durante a reinicialização do mysql.
Falha de hardware não deve ser considerada, pois este erro já ocorreu em 2 servidores distintos.
Qual poderia ser a causa do acidente? Como posso descobrir o máximo max_heap_table_size e tmp_table_size que posso usar sem travar o mysql?
ulimit -a
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 1031141
max locked memory (kbytes, -l) 64
max memory size (kbytes, -m) unlimited
open files (-n) 1024
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 1031141
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
A versão do mysql é 5.5.34 para Ubuntu 12.04,1
Responder1
Com 120 GB de memória, parece possível que sua máquina também tenha múltiplas CPUs físicas e uma arquitetura Non-Uniform Memory Access (NUMA)... e se for esse o caso, você poderia ter bastante memória disponível, mas ainda assim, contra-intuitivamente, não há memória disponível suficiente.
Se estou no caminho certo até agora, você pode estar enfrentando esse problema quando o MySQL tentar aumentar a memória alocada para a MEMORY
tabela e encontrar um erro relacionado à maneira como o Linux lida com alocações de memória ao executar nesta arquitetura - apenas considerando a memória disponível que está nos cartões de memória que estão diretamente conectados a uma CPU específica que foi escolhida de forma um tanto arbitrária para ser "aquela" a partir da qual as solicitações de memória seriam atendidas - apesar de outra memória física estar livre em outro lugar na placa-mãe .
NUMA é bom em teoria, mas talvez não seja ideal para processos únicos que necessitam de grandes quantidades de memória, como é o caso do MySQL... mas há uma solução alternativa.
A correção será modificar o mysqld_safe
script adicionando esta linha:
cmd="/usr/bin/numactl --interleave all $cmd"
...imediatamentedepoisestá linha...
cmd="$NOHUP_NICENESS"
As razões são explicadas aqui, em um excelente artigo escrito originalmente para abordar por que os servidores MySQL com esta arquitetura estavam trocando intensamente apesar da memória livre; no entanto, isso foi um sintoma de uma questão maior que o autorsubseqüentementeapontou que "não é inteiramente um problema de troca", que, mesmo com a troca desativada, pode incluir "falha na alocação de memória".
http://blog.jcole.us/2010/09/28/mysql-swap-insanity-and-the-numa-architecture/
Estou especulando, é claro, se isso se aplica ao seu sistema, mas parece uma possibilidade que vale a pena. Usei exatamente essa correção quando encontrei um problema em uma nova máquina de 128 GB quando tentei provisionar um buffer pool InnoDB de 64 GB e o MySQL não conseguiu encontrar 64 GB livres em uma máquina comnadamais correndo. Quando percebi que o valor mais alto que poderia usar com sucesso era algo menor que 1/4 da memória total em uma máquina de 16 núcleos com 4físicoprocessadores... mais ou menos como você parece estar encontrando... foi quando juntei as peças quanto à natureza do problema.
Responder2
A documentação paratmp_table_sizediz que esta configuração é o tamanho máximo que uma tabela temporária pode terem memória. Exceder esse tamanho não aciona erros de tabela completa; ele desencadeia uma mudança do uso da tabela na memória para o uso de uma tabela MyISAM no disco.
O sistema está travando porque você está permitindo que tabelas temporárias usem muito mais memória do que deveriam. O mesmo acontece com as tabelas de memória.
Você deve descartar o tmp_table_sizecaminhoabaixo. Lembre-se de que esta configuração não é um valor máximo geral. É um máximo por tabela temporária. Se você tiver 5 consultas criando uma tabela temporária enorme (digamos, pouco menos de 20 GB cada), agora você terá tabelas temporárias usando até 100 GB de sua RAM. Adicione um sexto e você usará mais RAM do que o servidor possui no total.
Se seus scripts estiverem realmente usando o mecanismo de armazenamento MEMORY, grave os dados em um arquivo MyISAM depois de tentar alterá-lo. Se realmente houver necessidade de desempenho tão rápido em uma tabela temporária tão grande, você deve procurar obter um armazenamento mais rápido (por exemplo.Fusão-io,Viridente outros). Se forem um exagero ou muito caros, eu pelo menos consideraria SSDs para consumidores.
MyISAM tem melhor desempenho quando seus dados são armazenados em cache na memória do sistema (RAM não utilizada). Se seus scripts estouram o cache toda vez que fazem uma consulta enorme (usando o mecanismo MEMORY), seu desempenho no MyISAM será prejudicado.
Suspeito que o script esteja usando o mecanismo de armazenamento MEMORY para 'melhorar' o desempenho, quando na verdade o está matando. Se for uma tabela temporária, ela deverá usar tabelas temporárias, e seu tmp_table_size deverá ser algo muito menor, forçando-o para o disco após quebrar o tmp_table_size.
Os padrões para max_heap_table_size e tmp_table_size são 16 MB. Se possível, sugiro alterar as configurações de volta aos padrões. Ajuste para cima em pequenos incrementos enquanto monitora o uso de recursos (E/S de disco, uso total de memória, uso de CPU, etc.) até encontrar configurações que funcionem para seu conjunto de dados.