Contadores de disco de rendimiento frente a una SAN

Contadores de disco de rendimiento frente a una SAN

No soy un tipo de almacenamiento. Sé cómo deletrear SAN y algunos conceptos básicos más allá de eso, pero no mucho más.

¿Son confiables los contadores de discos estándar para medir el almacenamiento SAN? Tenemos 2 servidores MS SQL (2005), ambos conectados a la misma SAN, que comenzaron a experimentar problemas ayer. No tenemos el control del hardware, por lo que no tengo mucha información sobre cómo está configurado el almacenamiento, aparte de lo que veo hasta el LUN a través de Veritas Enterprise Admin (es decir, solo la configuración básica del volumen). No tengo acceso a las herramientas para monitorear el rendimiento de los controladores o conmutadores.

En lugar de eso, estaba ejecutando contadores de rendimiento (% de tiempo de disco para físico y lógico, longitud de la cola de disco para físico y lógico). Las cifras de porcentaje de tiempo de disco para el disco físico parecen increíbles: hasta 32000% (sí, 32K).

¿Es así o estoy en lo cierto al pensar que algo se está agregando desde debajo del nivel LUN para generar esa métrica y este contador no es algo que deba usar contra el almacenamiento SAN?

EDITAR:
Debo agregar que recientemente descubrimos que uno de los 32 módulos de caché tiene problemas y fue eliminado de la mezcla. Sé que es una Hitachi, pero no conozco ningún detalle en cuanto al modelo.

ACTUALIZAR:
Hitachi acaba de terminar de cambiar el módulo de memoria defectuoso y reinicializar la tarjeta del puerto de fibra, ahora todo parece haber vuelto a la normalidad. ¡Gracias por la información chicos!

Respuesta1

Los números aparentemente locos para %Tiempo de disco indican algo, pero la forma en que Perfmon obtiene el %Tiempo de disco significa que números>100% no son imposibles.

El % de tiempo de disco es en realidad un contador calculado y proviene de:

Avg Disk Sec/Transfer * Disk Transfers/sec. 

Avg Disk Sec/transfer toma la suma de los tiempos de finalización de todas las IO en el intervalo actual y lo divide por el número de IO, lo que da un tiempo de finalización promedio de un extremo a otro. Las transferencias de disco por segundo son simplemente el número total de E/S completas dividido por el intervalo.

Es posible que muchas de esas IO se hayan iniciado fuera del intervalo actual, por lo que su producto puede ser >100 %. Esto puede suceder en cualquier sistema, pero superará el 100% con mayor frecuencia en matrices de discos complejas como una SAN.

Debido a la forma en que se calcula el % de tiempo de disco, en realidad no dice mucho, aunque en este caso le indica que algo anda mal. Calcular la utilización utilizando (100% de tiempo de inactividad) es una mejor idea ya que el porcentaje de tiempo de inactividad en realidad se mide directamente.

La longitud de la cola de disco puede ser mucho mayor de lo que sería en una configuración de almacenamiento local simple, pero en general, si la longitud de la cola es >> la cantidad de ejes que respaldan el LUN, entonces las cosas están realizando una copia de seguridad, especialmente si la longitud de la cola aumenta de manera constante durante un período significativo. de tiempo. Un valor de 10 o incluso 20 en un LUN con 10-15 discos no sería un problema en absoluto, pero 350 definitivamente indica que algo anda mal. Una caché defectuosa o mal configurada ciertamente podría causar problemas como ese, pero también podría haber otras razones.

Dicho esto, si desea saber qué es lo que realmente tiene que observar en el monitoreo del rendimiento en el nivel de SAN y tendrá que obtenerlo de su gente de SAN. El problema puede estar en los discos del LUN (tal vez un disco falló y se está realizando una reconstrucción RAID, posiblemente el caché esté deshabilitado por algún motivo, tal vez otros LUN separados de los mismos discos tengan una prioridad más alta y estén ocupados), posiblemente el caché está deshabilitado/falló en esa matriz en particular, tal vez la estructura SAN o los conmutadores estén experimentando problemas.

Hay un artículo antiguo pero muy bueno sobreContadores de disco en Windows aquí.

Respuesta2

¿Cuáles son sus 'promedios'? Longitud de la cola de lectura del disco' y 'Prom. Valores de rendimiento de la longitud de la cola de escritura del disco para esos LUN, cómo se compara cada servidor entre sí.

Si puedes negociar un momento de tranquilidad con tus chicos de SAN, entonces podrías correrZona IOZen ambas máquinas y comparar resultados.

Respuesta3

Algunos contadores son útiles y otros no. Cosas como la cola de disco actual le indicarán la cola que ve el host de Windows entre el momento en que envía el comando de lectura/escritura y el momento en que ese comando se procesa en la memoria caché de la SAN. Pero si los discos funcionan bien, aún puede ver colas en el host debido a problemas de caché, problemas de conmutador o problemas de fibra.

Cosas como segundos por lectura y segundos por escritura funcionarán de la misma manera: le indican cuánto tiempo llevó escribir en el caché.

Números como escrituras IO por segundo son un poco más útiles. Nuevamente, esto es IO para el caché SAN, pero ese IO tiene que llegar al disco en algún momento. Lo mismo ocurre con las lecturas de IO por segundo. Se lee del disco y del caché, pero si está en el caché de lectura, se salió del disco en algún momento.

información relacionada