El año pasado obtuve un nuevo disco duro externo (unidad 1) que falló sin previo aviso en menos de 2 meses. Lo reemplacé con una unidad externa diferente pero también nueva (unidad 2), y ahora, cuatro meses después, también comenzó a fallar. Tengo un disco externo secundario (unidad 3), este de varios años, que había estado funcionando bien... hasta ahora. Simplemente comenzó a aparecer errores de operación de paginación.
No conecto ni desconecto estas unidades en absoluto y rara vez las muevo, aunque una vez al mes es demasiado. Nunca los toques cuando estén girando. Están tumbados tranquilamente en su rincón.
Las tres unidades estaban conectadas a la misma placa base a través de USB. No hago overclocking a nada, la computadora está conectada a una regleta básica con un fusible que se enchufa a la toma de pared. También tengo dos SSD conectados a la placa base a la antigua usanza, sata+alimentación de la fuente de alimentación. Estos parecen estar bien.
Hubo un problema de energía en mi región a principios de año, pero se solucionó y el primer disco se apagó antes de eso. La fuente de alimentación también es antigua, una Corsair CX430. No estoy experimentando ningún otro signo clásico de falla de la fuente de alimentación, solo discos duros moribundos.
He estado leyendo sobre fallas sospechosas en las unidades y la mayoría de la gente señala fuentes de alimentación defectuosas, pero siempre se trata de unidades de disco duro internas, no portátiles. ¿No vería también otros problemas si fuera la fuente de alimentación?
Tal vez simplemente tuve mala suerte y tuve dos malos discos seguidos y el tercero está llegando al final de su vida, pero si no es falta de suerte, necesito descubrir qué está pasando porque ha estado convirtiendo el trabajo en una pesadilla. Necesito un buen plan de acción para diagnosticar el problema, pero estoy un poco perdido. No se que pruebas podría hacerle a la PSU para descartarlo en este caso ni que tipo de pruebas podría hacerle al mobo, esto sipoderde hecho, mata las unidades externas.
Editado para agregar información adicional.
Identificaré las unidades como Unidad 1: nueva, la primera en fallar, ya no la tengo; Unidad 2: nueva, defectuosa; Unidad 3: antigua, posiblemente defectuosa.
Todas las unidades están o estuvieron conectadas a puertos USB 3.0 en mi mobo. Las unidades 1 y 2 estaban conectadas al mismo puerto, pero probé todas las demás después de los problemas. Aún no investigué de cerca los puertos. La unidad 3 está conectada a un concentrador o grupo diferente de puertos mobo. Están muy separados y mi suposición ignorante es que se trata de circuitos diferentes:
Tengo periféricos conectados a los USB restantes. No noté ninguna anomalía.
Lecturas de CrystalDisk con datos SMART a continuación. Ambos son discos duros portátiles de consumo con un interior de 2,5".
Unidad 2 (nuevo disco duro externo, actualmente fallando)
Chkdsk /r
No detectó bloques defectuosos. Se puede leer y escribir y no mostrará errores en el Visor de eventos si se deja solo, pero durante el uso normal, al escribir archivos más grandes de más de 100 MB, comenzará a causar estas advertencias de eventos:
ID 51, warning
: "Se detectó un error en el dispositivo (DISCO) durante una operación de búsqueda". (precedió al primer error de escritura que tuvo, señal segura de que está a punto de no volver a escribir)ID 153, warning
: "Se reintentó la operación IO en la dirección del bloque lógico 0x------" (se inició después del primer error, el bloque lógico cambia, a veces es 0x0)
En este punto, si insistes en escribir, le seguirán:
ID 140, warning
: "El sistema no pudo vaciar datos en el registro de transacciones. (...) Estado de falla: {Unidad no lista}" (en la primera falla)ID 154, error
: "La operación IO en la dirección del bloque lógico 0x------ falló debido a un error de hardware"ID 137, error
: "El administrador de recursos de transacciones predeterminado en el volumen D: encontró un error que no se puede reintentar y no se pudo iniciar. Los datos contienen el código de error".ID 140, warning
: "El sistema no pudo vaciar datos en el registro de transacciones. (...) Estado de falla: la solicitud falló debido a un error grave de hardware del dispositivo".
Las 2 primeras advertencias no son obvias durante el uso, pero una vez que ocurren los errores, el sistema operativo se congelará hasta que lo desconecte y lo vuelva a conectar. La señal más condenatoria es quecuando no puede escribir, hace clic. No es hacer clic sin parar, pero un clic es demasiado, ¿verdad?
Unidad 3 (unidad externa antigua, actualmente tartamudeando)
Tuve que ejecutarlo chkdsk
dos veces, el escaneo se atascó en el primer intento. También informa 0 sectores defectuosos.
También generará advertencias silenciosas. Ninguno de los dos es evidente durante el funcionamiento, no se producen tartamudeos:
ID 153, warning
: "Se reintentó la operación IO en la dirección del bloque lógico 0x------" (Ha estado sucediendo por un tiempo, el bloque lógico cambia, a veces es 0x0)ID 51, warning
: "Se detectó un error en el dispositivo (DISCO) durante una operación de búsqueda". (comenzó ayer, también predice un fracaso inminente)
A partir de ayer, provocará aleatoriamente que el software que escribe archivos grandes (más de 1 GB) se detenga y muestre errores. En ese momento se desconectará y se volverá a conectar, siendo accesible posteriormente. El visor de eventos muestra los siguientes errores en estos momentos:
ID 50, warning
: "{Error de escritura retrasada} } Windows no pudo guardar todos los datos del archivo D:(algo)" (cambios, a veces es solo la raíz del volumen)ID 140, warning
: "Estado de falla: Se especificó un dispositivo que no existe. (...) Estado de falla: Se especificó un dispositivo que no existe"
Todavía tengo que escuchar un clic.
Unidad 1 (primera unidad externa nueva que falla, ya no la tengo)
También mostró errores de paginación (51) que pasaron desapercibidos durante un par de días, seguidos de estos cuando no se pudo escribir en la unidad:
ID 7, warning
: "El dispositivo (DISCO) tiene un bloque defectuoso".ID 154, error
: "La operación IO en la dirección del bloque lógico 0x------ falló debido a un error de hardware"
Fue repentino y fatal, helado y nunca más accesible después de eso; Intenté al menos recuperar algunos archivos pero ni siquiera aparecían en DISKPART o Linux. También presentó el constante clic de la muerte luego de ese suceso.
Edición 2: solo ocurre bajo temperaturas más altas de la placa base
Hice las pruebas sugeridas transfiriendo archivos de 5 GB entre discos en una variedad de condiciones que van desde la misma PC y sistema operativo a diferentes PC y sistema operativo. Cuando no pude reproducir los problemas no solo en diferentes condiciones sino también en la PC originalyOS, me di cuenta de que un factor cambió en los días en que los discos comenzaron a funcionar mal y cuando realicé la prueba: el clima.
La temperatura bajó más de 10ºC al pasar de una ola de calor a un clima inusualmente templado. Hoy hace un poco más de calor. Podría reproducir el problema de manera confiable en la misma PC y sistema operativo. También tuve la ayuda de un fan errático (detalles al final).
Tres temperaturas subieron cuando el disco 2 mostró el habitual error de E/S debido a una falla de hardware y se congeló:
El SSD M.2 que contiene el sistema operativo alcanzó los 79ºC. Está en la parte inferior del tablero, directamente debajo del PCH.
El PCH reportó 59ºC+.
Un sensor de "Temperatura 5" informó 69ºC+. Supongo que este es el VRM, ningún otro sensor misterioso se calienta tanto.
Bajar la temperatura del SSD no detuvo los errores, pero bajar las temperaturas PCH/temp 5 sí lo hizo. Con estos valores, el disco 2 volvió a funcionar bien:
Sabía que ni la CPU ni la GPU estaban demasiado calientes, pero no presté atención al mobo y ciertamente tampoco a la temperatura del SSD. Según lo que he estado leyendo, estas lecturas de temperatura del mobo no son tan altas, pero gracias al ventilador son más altas de lo que normalmente estarían en mi sistema (~50/60ºC).
Estoy trabajando para determinar el límite de temperatura exacto, hasta ahora es 59ºC PCH y 56ºC temp 5 la más baja para que el disco deje de responder. Entre otras cosas, el PCH gestiona los datos y la alimentación del USB, ¿no es así?
El problema de los fans
Mi caso es pequeño con un ventilador frontal de 120 mm. Reemplacé el original con un disipador de calor/ventilador de agua que funciona como escape para la computadora. Está conectado al CPU_FAN y cumple bien su doble función. Es tan antiguo como todo lo demás en esta versión y ajusté la curva de acciones a una ligeramente más agresiva.
Al realizar las pruebas me di cuenta de que algo andaba mal con el ventilador: estaba atascado en la velocidad mínima cuando no debería. Ignoró la curva establecida por la utilidad mobo de Windows, y los intentos de hacerlo girar al 100% fijo lo hicieron girar aleatoriamente al 100% durante un par de segundos sin mantener la velocidad de rotación como se esperaba. Sin embargo, respetó la configuración UEFI y comenzó a responder a la utilidad nuevamente después de que cambié la configuración a través de UEFI.
Es extraño, pero no creo que sea la causa fundamental del problema, simplemente lo exacerbó al permitir que las temperaturas subieran cada vez más rápido. Me preocupa que tales temperaturas degraden algún componente a largo plazo porque, en retrospectiva, mi computadora ha estado demasiado silenciosa desde principios de año y ya hemos pasado por 4 o 5 olas de calor.