
Tengo un entorno que ejecuta SQL Server en una plataforma Windows VMWare usando una SAN con SSD configurados en RAID 6 y usando Veeam para copias de seguridad del servidor y LiteSpeed para copias de seguridad de SQL Server.
He tenido un problema varias veces durante el año pasado en el que a veces la base de datos se ralentiza y mi promedio. La longitud de la cola del disco es alta, pero mis bytes de disco/seg son mucho más bajos de lo que debería poder alcanzar.
Aquí está el Monitor de rendimiento en el servidor de la base de datos. Cuando ocurre este problema, el promedio. La longitud de la cola del disco siempre está en el rango de varios cientos y los bytes del disco/s se mantienen entre 5 y 15 MB/s. Durante el funcionamiento normal (cuando este problema no ocurre), los bytes de disco/seg llegan a 900 MB/seg aproximadamente.
Desde que comenzó a ocurrir este problema, reemplacé el hardware SAN, incluidos los conmutadores. Pero el problema continúa en el nuevo hardware.
Mi teoría ha sido que esto no es un problema de SQL Server, porque si el problema era que SQL Server estaba saturando la E/S del disco, debería ver muchos más bytes de disco/seg. Pero siempre que ocurre este problema, los bytes de disco por segundo siempre son muy bajos.
Pensé que tal vez era el software de respaldo, ya sea que se ejecuta en el servidor de la base de datos o en otro servidor que utiliza el mismo VMWare/SAN, pero ni los respaldos del servidor ni los respaldos de SQL Server parecen estar ejecutándose mientras persiste este problema. sucediendo.
Lo último que pensé es que se trata de un problema con VMWare, pero me comuniqué con ellos y hasta ahora no han podido ayudarme.
Reiniciar el servidor de la base de datos soluciona el problema. A veces, el problema volverá a ocurrir dentro de un día y, a veces, el problema no volverá a ocurrir durante meses. Siempre que ocurre el problema, no tengo conocimiento de nada fuera de la carga de trabajo normal que se ejecuta en la base de datos.
¿Qué podría estar causando este problema en el que el rendimiento del disco se reduce a alrededor del 1% de lo que debería ser capaz de hacer?
Respuesta1
Los discos duros se vuelven más lentos cuanto más larga se vuelve su cola de trabajo y viceversa: hay una cantidad muy limitada de IOPS que puede ofrecerles (aproximadamente 40-200, según el grado y las RPM). Cualquier aumento de la demanda más allá de ese punto disminuye aún más su rendimiento.
La creación de una matriz de HDD aumenta la cantidad total de IOPS de lectura posibles en toda la matriz, pero generalmente menos que simplemente sumar sus IOPS individuales. Las IOPS de escritura son más complejas y también dependen en gran medida del nivel de RAID, el almacenamiento en caché, etc.
Cualquier cosa más allá de eso requiere SSD y controladores adecuados.
Respuesta2
Dado que ya está usando SSD, sugeriría que el problema podría ser similar al que tuve yo, ya que TRIM no se maneja adecuadamente en los SSD. Borrar un bloque de datos en un SSD no es instantáneo, preparar un bloque para su reutilización puede ser un proceso lento y podría ser la causa de la desaceleración: si los bloques libres y preparados se agotan, la matriz podría ralentizarse drásticamente como si fuera nueva. Se preparan los bloques. Verifique que su SAN sepa que se trata de SSD y que tengan habilitado el TRIM en segundo plano.