Contadores de disco de rendimiento frente a una SAN

Question 1

Los números aparentemente locos para %Tiempo de disco indican algo, pero la forma en que Perfmon obtiene el %Tiempo de disco significa que números>100% no son imposibles.

El % de tiempo de disco es en realidad un contador calculado y proviene de:

Avg Disk Sec/Transfer * Disk Transfers/sec.

Avg Disk Sec/transfer toma la suma de los tiempos de finalización de todas las IO en el intervalo actual y lo divide por el número de IO, lo que da un tiempo de finalización promedio de un extremo a otro. Las transferencias de disco por segundo son simplemente el número total de E/S completas dividido por el intervalo.

Es posible que muchas de esas IO se hayan iniciado fuera del intervalo actual, por lo que su producto puede ser >100 %. Esto puede suceder en cualquier sistema, pero superará el 100% con mayor frecuencia en matrices de discos complejas como una SAN.

Debido a la forma en que se calcula el % de tiempo de disco, en realidad no dice mucho, aunque en este caso le indica que algo anda mal. Calcular la utilización utilizando (100% de tiempo de inactividad) es una mejor idea ya que el porcentaje de tiempo de inactividad en realidad se mide directamente.

La longitud de la cola de disco puede ser mucho mayor de lo que sería en una configuración de almacenamiento local simple, pero en general, si la longitud de la cola es >> la cantidad de ejes que respaldan el LUN, entonces las cosas están realizando una copia de seguridad, especialmente si la longitud de la cola aumenta de manera constante durante un período significativo. de tiempo. Un valor de 10 o incluso 20 en un LUN con 10-15 discos no sería un problema en absoluto, pero 350 definitivamente indica que algo anda mal. Una caché defectuosa o mal configurada ciertamente podría causar problemas como ese, pero también podría haber otras razones.

Dicho esto, si desea saber qué es lo que realmente tiene que observar en el monitoreo del rendimiento en el nivel de SAN y tendrá que obtenerlo de su gente de SAN. El problema puede estar en los discos del LUN (tal vez un disco falló y se está realizando una reconstrucción RAID, posiblemente el caché esté deshabilitado por algún motivo, tal vez otros LUN separados de los mismos discos tengan una prioridad más alta y estén ocupados), posiblemente el caché está deshabilitado/falló en esa matriz en particular, tal vez la estructura SAN o los conmutadores estén experimentando problemas.

Hay un artículo antiguo pero muy bueno sobreContadores de disco en Windows aquí.

Answer

Los números aparentemente locos para %Tiempo de disco indican algo, pero la forma en que Perfmon obtiene el %Tiempo de disco significa que números>100% no son imposibles.

El % de tiempo de disco es en realidad un contador calculado y proviene de:

Avg Disk Sec/Transfer * Disk Transfers/sec.

Avg Disk Sec/transfer toma la suma de los tiempos de finalización de todas las IO en el intervalo actual y lo divide por el número de IO, lo que da un tiempo de finalización promedio de un extremo a otro. Las transferencias de disco por segundo son simplemente el número total de E/S completas dividido por el intervalo.

Es posible que muchas de esas IO se hayan iniciado fuera del intervalo actual, por lo que su producto puede ser >100 %. Esto puede suceder en cualquier sistema, pero superará el 100% con mayor frecuencia en matrices de discos complejas como una SAN.

Debido a la forma en que se calcula el % de tiempo de disco, en realidad no dice mucho, aunque en este caso le indica que algo anda mal. Calcular la utilización utilizando (100% de tiempo de inactividad) es una mejor idea ya que el porcentaje de tiempo de inactividad en realidad se mide directamente.

La longitud de la cola de disco puede ser mucho mayor de lo que sería en una configuración de almacenamiento local simple, pero en general, si la longitud de la cola es >> la cantidad de ejes que respaldan el LUN, entonces las cosas están realizando una copia de seguridad, especialmente si la longitud de la cola aumenta de manera constante durante un período significativo. de tiempo. Un valor de 10 o incluso 20 en un LUN con 10-15 discos no sería un problema en absoluto, pero 350 definitivamente indica que algo anda mal. Una caché defectuosa o mal configurada ciertamente podría causar problemas como ese, pero también podría haber otras razones.

Dicho esto, si desea saber qué es lo que realmente tiene que observar en el monitoreo del rendimiento en el nivel de SAN y tendrá que obtenerlo de su gente de SAN. El problema puede estar en los discos del LUN (tal vez un disco falló y se está realizando una reconstrucción RAID, posiblemente el caché esté deshabilitado por algún motivo, tal vez otros LUN separados de los mismos discos tengan una prioridad más alta y estén ocupados), posiblemente el caché está deshabilitado/falló en esa matriz en particular, tal vez la estructura SAN o los conmutadores estén experimentando problemas.

Hay un artículo antiguo pero muy bueno sobreContadores de disco en Windows aquí.

Question 2

¿Cuáles son sus 'promedios'? Longitud de la cola de lectura del disco' y 'Prom. Valores de rendimiento de la longitud de la cola de escritura del disco para esos LUN, cómo se compara cada servidor entre sí.

Si puedes negociar un momento de tranquilidad con tus chicos de SAN, entonces podrías correrZona IOZen ambas máquinas y comparar resultados.

Answer

¿Cuáles son sus 'promedios'? Longitud de la cola de lectura del disco' y 'Prom. Valores de rendimiento de la longitud de la cola de escritura del disco para esos LUN, cómo se compara cada servidor entre sí.

Si puedes negociar un momento de tranquilidad con tus chicos de SAN, entonces podrías correrZona IOZen ambas máquinas y comparar resultados.

Question 3

Algunos contadores son útiles y otros no. Cosas como la cola de disco actual le indicarán la cola que ve el host de Windows entre el momento en que envía el comando de lectura/escritura y el momento en que ese comando se procesa en la memoria caché de la SAN. Pero si los discos funcionan bien, aún puede ver colas en el host debido a problemas de caché, problemas de conmutador o problemas de fibra.

Cosas como segundos por lectura y segundos por escritura funcionarán de la misma manera: le indican cuánto tiempo llevó escribir en el caché.

Números como escrituras IO por segundo son un poco más útiles. Nuevamente, esto es IO para el caché SAN, pero ese IO tiene que llegar al disco en algún momento. Lo mismo ocurre con las lecturas de IO por segundo. Se lee del disco y del caché, pero si está en el caché de lectura, se salió del disco en algún momento.

Answer

Algunos contadores son útiles y otros no. Cosas como la cola de disco actual le indicarán la cola que ve el host de Windows entre el momento en que envía el comando de lectura/escritura y el momento en que ese comando se procesa en la memoria caché de la SAN. Pero si los discos funcionan bien, aún puede ver colas en el host debido a problemas de caché, problemas de conmutador o problemas de fibra.

Cosas como segundos por lectura y segundos por escritura funcionarán de la misma manera: le indican cuánto tiempo llevó escribir en el caché.

Números como escrituras IO por segundo son un poco más útiles. Nuevamente, esto es IO para el caché SAN, pero ese IO tiene que llegar al disco en algún momento. Lo mismo ocurre con las lecturas de IO por segundo. Se lee del disco y del caché, pero si está en el caché de lectura, se salió del disco en algún momento.

Contadores de disco de rendimiento frente a una SAN

Respuesta1

Respuesta2

Respuesta3

información relacionada