La transferencia de datos se detiene en el controlador RAID LSI 9271

La transferencia de datos se detiene en el controlador RAID LSI 9271

Tengo un servidor equipado con un controlador RAID LSI 9271-8i, con 4 x 4 TB organizados como RAID-5 y 1 x 8 TB como JBOD (que se llama RAID-0 en el controlador).

Cuando copio grandes cantidades de datos (~1 TB), puedo observar lo siguiente: durante los primeros gigabytes, la velocidad de transferencia es buena y está limitada por la velocidad del disco o de la red, generalmente ~100 MB/s. Pero al cabo de un rato la transferencia se detiene por completo durante aprox. 20-30 segundos y continúa con los siguientes aprox. 1 GB. Copio muchos archivos, cada uno de entre 10 MB y 500 MB, y durante la pausa, robocopy permanece en un archivo y continúa con el siguiente después de la pausa. De esa manera, la velocidad de transferencia general cae a ~20 MB/s.

Durante la pausa, no es posible explorar los archivos de las unidades y, en un caso, recibí un mensaje de error de reinicio del controlador ("El controlador encontró un error fatal y se reinició"). Tampoco es posible acceder a los datos del controlador con la herramienta CLI durante esa pausa (el resultado se muestra cuando finaliza la pausa).

Pude observar este comportamiento al copiar.

  • red gigabit a volumen RAID-5
  • red gigabit a volumen JBOD
  • JBOD a RAID-5
  • RAID-5 a JBOD

No sucede nada que me parezca sospechoso: las temperaturas (discos, BBU) están dentro del rango válido, la temperatura del controlador parece un poco alta, pero también dentro de las especificaciones. No se están ejecutando comprobaciones en el RAID ni hay reconstrucción en curso.

¿Alguna suposición?

Antes de reemplazar el controlador, quiero intentar optimizar la situación térmica. ¿Suena este comportamiento como un posible problema térmico?

Me resulta extraño que los primeros 20-30 GB funcionen bien y que las pausas no se produzcan antes de eso. Si dejo el servidor solo por un tiempo y lo vuelvo a intentar, nuevamente se copian bien algunos GB. La única explicación ingenua para mí es que el controlador se calienta demasiado. ¿Por qué el controlador y no los discos? Los discos RAID-5 tienen 7200 rpm y están apilados muy juntos, mientras que el disco único JBOD tiene 5400 rpm y tiene mucho aire alrededor. Sería extraño que ambos mostraran los mismos síntomas de sobrecalentamiento.

Respuesta1

Tuve un problema similar con un 9260-16i. No fueron temperaturas ya que tengo dos ventiladores de 92 mm funcionando directamente en el LSI. Tengo un segundo servidor configurado de la misma manera y estuvo bien. Lo que descubrí fue que el servidor con problemas estaba configurado con un tamaño de banda de 64K y el servidor en funcionamiento tenía un tamaño de banda de 256K. Hice una copia de seguridad del servidor problemático y reconstruí el grupo de unidades con una banda de 256 K y luego formateé la unidad del sistema operativo con clústeres de 64 K (ya que tengo un archivo de varios GB). He estado moviendo datos hacia atrás y sin dudarlo y básicamente ejecuté a toda velocidad de NIC gigabit en escrituras que se mueven a más de 350 GB por hora sin parar y sin pausas.

Respuesta2

El problema probablemente esté relacionado con que el controlador vacíe su propia caché DRAM. Cualquiera que tenga este problema debería intentar configurar el caché del controlador en writethroughlugar dewriteback

información relacionada