Eu não sou um cara de armazenamento. Eu sei soletrar SAN e algumas noções básicas além disso, mas não muito além.
Os contadores de disco padrão são confiáveis na medição do armazenamento SAN? Temos 2 servidores MS SQL (2005), ambos conectados à mesma SAN, que começaram a apresentar problemas ontem. Não temos controle do hardware, por isso não tenho muitas informações sobre como o armazenamento está configurado, além do que vejo no LUN por meio do Veritas Enterprise Admin (ou seja, apenas configuração básica de volume). Não tenho acesso às ferramentas para monitorar o rendimento nos controladores ou switches.
Em vez disso, eu estava executando contadores perfmon (% de tempo de disco para físico e lógico, comprimento da fila de disco para físico e lógico). Os números de% de tempo de disco para disco físico parecem incríveis - até 32.000% (sim, 32K).
Está certo ou estou correto ao pensar que algo está sendo agregado abaixo do nível do LUN para gerar essa métrica e esse contador não é algo que devo usar no armazenamento SAN?
EDITAR:
Devo acrescentar que descobrimos recentemente que um dos 32 módulos de cache está com problemas e foi retirado do mix. Eu sei que é um Hitachi, mas não sei detalhes sobre o modelo.
ATUALIZAR:
A Hitachi acabou de trocar o módulo de memória com defeito e reinicializar a placa de porta de fibra, agora as coisas parecem ter voltado ao normal. Obrigado pela informação rapazes!
Responder1
Os números aparentemente malucos para% Disk Time indicam algo, mas a maneira como% Disk Time é derivado pelo Perfmon significa que números> 100% não são impossíveis.
% Tempo em disco é na verdade um contador calculado e vem de:
Avg Disk Sec/Transfer * Disk Transfers/sec.
Avg Disk Sec/transfer pega a soma dos tempos de conclusão de todos os IO's no intervalo atual e divide pelo número de IO's, fornecendo um tempo médio de conclusão final a final. As transferências de disco por segundo são simplesmente o número total de E/S completos dividido pelo intervalo.
Muitos desses IO's podem ter sido iniciados fora do intervalo atual, portanto seu produto pode ser >100%. Isso pode acontecer em qualquer sistema, mas excederá 100% mais frequentemente em matrizes de disco complexas como uma SAN.
Devido à forma como é calculado,% do tempo em disco não diz muito, embora neste caso esteja dizendo que algo está errado. Calcular a utilização usando (100% de tempo ocioso) é uma ideia melhor, pois% do tempo ocioso é medido diretamente.
Os comprimentos da fila de disco podem ser muito maiores do que seriam em uma configuração simples de armazenamento local, mas geralmente se o comprimento da fila for >> o número de fusos que suportam o LUN, então o backup está acontecendo, especialmente se o comprimento da fila aumentar continuamente por qualquer período significativo de tempo. Um valor de 10 ou mesmo 20 em um LUN com 10 a 15 discos não seria um problema, mas 350 definitivamente significa que algo está errado. Um cache defeituoso ou mal configurado certamente pode causar problemas como esse, mas também pode haver outros motivos.
Dito isto, se você quiser saber o que realmente precisa observar o monitoramento de desempenho no próprio nível da SAN e precisará obter isso do pessoal da SAN. O problema pode estar nos discos do LUN (talvez um disco tenha falhado e uma reconstrução do RAID esteja em andamento, possivelmente o cache esteja desabilitado por algum motivo, talvez outros LUNs separados dos mesmos discos tenham uma prioridade mais alta e estejam ocupados), possivelmente o cache está desabilitado/falhou nesse array específico, talvez a malha SAN ou os switches estejam enfrentando problemas.
Há um artigo antigo, mas muito bom, sobreContadores de disco no Windows aqui.
Responder2
Quais são os seus 'Avg. Comprimento da fila de leitura de disco' e 'Média. Valores perfmon do Disk WriteQueue Length para esses LUNs, como cada servidor se compara entre si.
Se você puder negociar algum tempo de silêncio com o pessoal da SAN, poderá executarZona IOem ambas as máquinas e compare os resultados.
Responder3
Alguns contadores são úteis para você e outros não. Coisas como a fila de disco atual informarão o enfileiramento que o Host do Windows vê entre o momento em que envia o comando de leitura/gravação e esse comando é processado no cache da SAN. Mas se os discos estiverem funcionando bem, você ainda poderá ver filas no host devido a problemas de cache, problemas de switch ou problemas de fibra.
Coisas como segundos por leitura e segundos por gravação funcionarão da mesma maneira, pois informam quanto tempo levou para gravar no cache.
Números como gravações IO por segundo são um pouco mais úteis. Novamente, este é o IO para o cache SAN, mas esse IO precisa chegar ao disco em algum momento. O mesmo vale para leituras de IO por segundo. Ele lê o disco e o cache, mas se estiver no cache de leitura, ele saiu do disco em algum momento.