He pedido reemplazar tantos SSD que no tengo ganas de volver a pedirlo. Pero si el SSD realmente está roto, solo una vez que el servidor esté caído me costará $500 o algo así.
Entonces, ¿cómo me aseguro de que el SSD esté realmente roto?
¿Puedo simplemente reformatear el disco duro como en Windows? El disco está montado.
Antes de que un pin se suelte, el servidor se reinicia demasiadas veces. Parece que dañó todos los SSD allí.
/bin/ls: cannot access cache-zch-5666-cache.txt: Input/output error
/bin/ls: cannot access cache-zch-4970-cache.txt: Input/output error
/bin/ls: cannot access cache-zch-4782-cache.txt: Input/output error
./ cache-zch-4782-cache.txt cache-zch-5666-cache.txt
../ cache-zch-4970-cache.txt
root@host [/home2/investgr1/public_html/hello/cache/zch]# rm *
rm: cannot remove `cache-zch-4782-cache.txt': Input/output error
rm: cannot remove `cache-zch-4970-cache.txt': Input/output error
rm: cannot remove `cache-zch-5666-cache.txt': Input/output error
root@host [/home2/investgr1/public_html/hello/cache/zch]#
Respuesta1
Primero, verifique el resultado de dmesg
como sugerí en suPregunta anterior. Si el kernel tiene problemas para comunicarse con la unidad, se informará allí.
Eso no necesariamente indica que la unidad esté defectuosa. La RAM es otro culpable popular, así que haz una prueba de memoria. yo sueloUBCDpara esto, pero hay muchas alternativas.
Si la prueba de memoria sale limpia y no hay errores en dmesg
, pero sigues recibiendo errores de E/S, es probable que tengas sectores defectuosos en la unidad. Para determinar eso, ejecute fsck -c
o fsck -cc
en el disco. La primera prueba es mejor para los SSD, ya que es una prueba de solo lectura, pero no puede encontrar ni solucionar tantos problemas como la prueba de lectura y escritura que se obtiene con -cc
.
Por último,no puedes probar un resultado negativo, por lo que nunca podrás decir "Este SSD no está roto" con absoluta confianza.
Para empeorar el problema, es posible que una prueba fsck
(o badblocks
) no arroje errores, pero que el síntoma desaparezca. Esto se debe a que las unidades de disco regrabables modernas tienen funciones de autorreparación que se activan cuando puedes mostrarle a la unidad que hay un problema. Dicho esto, estas instalaciones normalmente evitan que usted vea el efecto de los sectores defectuosos en primer lugar, por lo que si los sectores defectuosos son realmente el problema, puede significar que el grupo de sectores de repuesto de la unidad está agotado.
Respuesta2
Ejecute badblocks -n -v
en una o más de las particiones. Estoy seguro de que esto no es tan significativo en un SSD (los bloques son virtuales y los SSD realizan su propia gestión de bloques defectuosos), pero si el dispositivo tiene problemas, el proceso de bloqueo incorrecto puede desencadenarlos.
Es decir, si badblocks
encuentra bloques defectuosos en un SSD, el SSD está roto.
No he encontrado ninguna referencia que respalde esta tesis, pero aquí está mi razonamiento:
badblocks -n
realiza una prueba de lectura y escritura de bajo nivel de toda la partición.- Los SSD gestionan internamente sus propios bloques defectuosos y también utilizan la nivelación de desgaste para distribuir el uso; las direcciones de bloque enviadas al sistema son virtuales. Por lo tanto, ninguno de esos bloques debería dar malos resultados y, si lo hacen, algún funcionamiento de la unidad ha fallado.
Como dice Warren Young, es difícil probar un resultado negativo aquí, por lo que el hecho de que esta prueba pase no significa que el disco no esté roto.
Tenga en cuenta queprimero debes desmontar las particiones, lo que significa que tendrás que usar un CD en vivo o algo así si tu sistema de archivos raíz está en el SSD.