Ruido de clic en disco duro SAS en estado inactivo: búsqueda de asesoramiento sobre la configuración de PERC H710 (solución de problemas de almacenamiento)

Ruido de clic en disco duro SAS en estado inactivo: búsqueda de asesoramiento sobre la configuración de PERC H710 (solución de problemas de almacenamiento)

Recientemente adquirí 5 discos duros SAS usados ​​con aproximadamente 35 días de servicio cada uno. Fue una gran oferta en comparación con la compra de discos duros nuevos, pero hubo una ligera confusión ya que inicialmente pensé que eran SATA. Después de investigar un poco, compré un controlador RAID (usándolo como HBA), el PERC H710. Sin embargo, después de instalar todo, noté que estos discos duros SAS producen un ruido de clic extraño cuando están en reposo. Me parece poco probable que los cinco discos, que estaban bien embalados, tengan el mismo problema, sobre todo teniendo en cuenta la buena reputación del vendedor. He grabado el ruido como referencia:

Más cerca del servidor: https://www.youtube.com/shorts/DFqMGDFCObU

En la otra habitación (al otro lado de la pared): https://www.youtube.com/shorts/4jHKJnIhp2Q PD: Puede resultar difícil escuchar el vídeo, especialmente con algunos discos duros SATA en ejecución. El servidor está en producción, por lo que hay lectura/escritura continua en esos otros discos duros SATA.

Aquí hay información sobre uno de ellos:

    === START OF INFORMATION SECTION ===
Vendor:               SEAGATE
Product:              ST33000650SS
Revision:             RS16
Compliance:           SPC-4
User Capacity:        3,000,592,982,016 bytes [3.00 TB]
Logical block size:   512 bytes
Rotation Rate:        7200 rpm
Form Factor:          3.5 inches
Logical Unit id:      0x5000c50055ad05e3
Serial number:        Z295A8NC
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Wed Feb 21 17:40:10 2024 EST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Disabled or Not Supported

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     48 C
Drive Trip Temperature:        68 C

Accumulated power on time, hours:minutes 63899:38
Manufactured in week 43 of year 2012
Specified cycle count over device lifetime:  10000
Accumulated start-stop cycles:  70
Specified load-unload count over device lifetime:  300000
Accumulated load-unload cycles:  12281
Elements in grown defect list: 0

¿Alguien ha encontrado antes un problema similar con los discos duros SAS? ¿Es este comportamiento normal para SAS o debería ejecutar algunas pruebas? ¡Cualquier consejo sería muy apreciado!

Respuesta1

Después de ejecutar el siguiente comando y esperar a que finalice, tenemos "errores de lectura totales corregidos = 1809673244" y el controlador dejó de hacer esos ruidos.

smartctl -tlong /dev/sdX

Aquí está el resultado una vez completado:

root@abc:~# smartctl -a /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.10.0-27-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               SEAGATE
Product:              ST33000650SS
Revision:             RS16
Compliance:           SPC-4
User Capacity:        3,000,592,982,016 bytes [3.00 TB]
Logical block size:   512 bytes
Rotation Rate:        7200 rpm
Form Factor:          3.5 inches
Logical Unit id:      0x5000c50055ad05e3
Serial number:        Z295A8NC
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Thu Feb 22 09:40:48 2024 EST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Disabled or Not Supported

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     43 C
Drive Trip Temperature:        68 C

Accumulated power on time, hours:minutes 63915:46
Manufactured in week 43 of year 2012
Specified cycle count over device lifetime:  10000
Accumulated start-stop cycles:  70
Specified load-unload count over device lifetime:  300000
Accumulated load-unload cycles:  12283
Elements in grown defect list: 0

Vendor (Seagate Cache) information
  Blocks sent to initiator = 3623441469
  Blocks received from initiator = 3686219937
  Blocks read from cache and sent to initiator = 272821687
  Number of read and write commands whose size <= segment size = 36308955
  Number of read and write commands whose size > segment size = 15

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 63915.77
  number of minutes until next internal SMART test = 55

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   1809673244        0         0  1809673244          0      30248.740           0
write:         0        0         0         0          0       8554.361           0
verify: 2794696942        0         0  2794696942          0    1042801.370           0

Non-medium error count:    59813

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                  32   63907                 - [-   -    -]
# 2  Background short  Completed                  32   63890                 - [-   -    -]
# 3  Background short  Completed                  32      23                 - [-   -    -]
# 4  Background long   Completed                  32      22                 - [-   -    -]

Long (extended) Self-test duration: 27600 seconds [460.0 minutes]

root@abc:~#

¡Espero que esto ayude a alguien con el mismo problema!

información relacionada