Divide y vencerás

Divide y vencerás

SOLUCIÓN: Fue la configuración de RAM todo el tiempo :-| Nunca se me ocurrió que la configuración estándar en una placa estándar con RAM estándar estaría tan alejada que causaría inestabilidad en el sistema. Nunca hice ningún overclocking, así que nunca miré muy de cerca esas configuraciones. Una vez que elegí el perfil DOCP que coincidía con mi RAM, todo se aclaró y es incluso un poco más rápido. Gracias a Twisty Impersonator por la guía del proceso y a magicandre1981 por la sugerencia que me impulsó a verificar la configuración. Con suerte, esto le ahorrará a otra persona 2 años de frustración.

EDITAR: Bueno, creo que la causa ha quedado clara. Después de reemplazar TODO el hardware y TODAVÍA viendo un problema, decidí volver a la idea del hardware. En resumen: si ejecuto con dos unidades de RAM, todo está bien. No importa cuáles sean los dos palos. Si pongo los cuatro empiezo a tener problemas. Esto parece una indicación bastante clara de una placa base defectuosa.

Los síntomas:

Durante los últimos años, mi máquina ha estado generalmente inestable, de vez en cuando. Normalmente se manifiesta como BSOD con distintos códigos de parada.

  • Actualizar la RAM mejoró la estabilidad por un tiempo.
  • Actualizar la placa base mejoró la estabilidad por un tiempo.
  • Reemplazar la C:unidad mejoró la estabilidad por un tiempo.
  • En ocasiones ha sido necesario actualizar o reinstalar el sistema operativo y, por lo general, mejora la estabilidad por un tiempo.

He reemplazado literalmente todos los componentes funcionales del sistema, excepto la CPU y la unidad de Blu-ray.. No he descartado la CPU, pero todavía hay una gran cantidad de "cosas" de software que también podrían tener la culpa.

Cada vez, el problema ha vuelto después de unos meses.


Más recientemente, los síntomas han cambiado ligeramente. Estoy abierto a la posibilidad de que se trate de un problema que no tiene ninguna relación, pero parece demasiado similar a los problemas con los que he estado luchando todo este tiempo como para ser una mera coincidencia.

Hace unas semanas reinicié mi computadora para actualizarla y no POST. Me preocupé por un tiempo (verificando conexiones, MemOK!botones, desconectando la alimentación, TPUencendido/apagado, EPUencendido/apagado, etc.) y lo encendí POST, pero el sistema operativo no se cargaba. Olvidé la presentación exacta de los síntomas, pero el IIRC simplemente se quedaba sentado y girando.

Reinstalé el sistema operativo y todo estuvo tranquilo durante aproximadamente una semana, hasta que las aplicaciones comenzaron a fallar. Al principio, parecía que todas las aplicaciones que fallaban estaban instaladas en el mismo SSD. Sin espacio para mover cosas y probar, actualicé a las nuevas unidades Samsung. Pero las aplicaciones siguen fallando.

  • Actualizó la última actualización del BIOS. Ningún cambio.
    • Resulta que debes restablecer el CMOS cuando actualizas el BIOS. Los síntomas potenciales son muy parecidos a los míos. Reinicié el CMOS. Ningún cambio.
  • Generalmente eran aplicaciones de alta demanda las que fallaban (Dishonored 2, Diablo III, ESO, etc.). Pero los bloqueos ocurren entre 35 °C y 45 °C para CPU y GPU, por lo que probablemente no sea la temperatura.
  • No se está quedando sin RAM.
  • MemTestnunca ha mostrado ningún problema. Lo he ejecutado decenas de veces.
  • Ninguna prueba de CPU ha mostrado problemas, excepto a altas temperaturas.
  • Ninguna prueba de GPU ha mostrado problemas, excepto a altas temperaturas.
  • Reinstalé mis controladores de video unas cuantas docenas de veces.
  • Ayer se me bloqueó el Administrador de tareas mientras miraba.
  • Intenté instalar una aplicación de la Tienda Windows. Algún proceso en segundo plano falló. Tuve que intentarlo de nuevo. Funcionó bien.
  • El Visor de eventos solo tiene AppCrasheventos

AppCrashLos eventos se producen mediante una amplia gama de aplicaciones. Diferentes tamaños, ubicaciones, demandas, etc. Normalmente es una vez al día, tal vez menos. Pero las aplicaciones que consumen muchos recursos fallan de manera bastante confiable en aproximadamente 30 minutos.

Debo aclarar que estos no son Windows is looking for a solutioneventos de AppHang. La aplicación simplemente desaparece, como si la cerrara, y Windows no tiene nada que decir al respecto excepto el evento AppCrash en el Visor de eventos. Con menos frecuencia, hay un BSOD. Últimamente he visto a IRQ not less than or equal, y otros que no puedo recordar... (¿Ya no tengo ningún volcado de memoria? Eso es raro...).

Especificaciones del sistema:

  • SO:Windows 10 Pro (actualizado desde Win7 durante el período de actualización gratuita)
  • UPC:AMD Phenom II 1090 (sin overclocking)
  • Enfriamiento:Ventiladores de CPU CoolerMaster de 150 mm, varios ventiladores de caja
  • Placa base:ASUS M4A99X EVO R2.0
  • RAM:G.Skill 16GB(4x4) DDR3-1333
  • GPU:MSI GTX 970 (sin overclocking)
  • Fuente de alimentación:Corsario CX750M
  • Unidad del sistema:Samsung 850 EVO 500GB
  • Otras unidades:Samsung 850 EVO 500GB, otras unidades convencionales, unidad óptica
  • AV:Windows Defender, ningún otro AV

Volcado de memoria:

Impulsado por esta publicación:https://superuser.com/questions/1281659/possible-to-determine-what-core-a-default-application-was-on-when-it-crashed

Anoche encontré un nuevo BSOD mientras estaba inactivo. Detalles desde WhoCrashedabajo:

Crash dump directory: C:\WINDOWS\Minidump
Crash dumps are enabled on your computer.

On Wed 1/3/2018 9:00:13 AM GMT your computer crashed
crash dump file: C:\WINDOWS\Minidump\010318-12546-01.dmp
This was probably caused by the following module: ntoskrnl.exe (nt+0x1640E0)
Bugcheck code: 0x1E (0xFFFFFFFFC0000005, 0xFFFFF8019CED183E, 0xFFFF968442FBEB68, 0xFFFF968442FBE3B0)
Error: KMODE_EXCEPTION_NOT_HANDLED
file path: C:\WINDOWS\system32\ntoskrnl.exe
product: Microsoft® Windows®
Operating System company: Microsoft Corporation
description: NT Kernel & System
Bug check description: This indicates that a kernel-mode program generated an exception
which the error handler did not catch. This appears to be a typical software driver bug
and is not likely to be caused by a hardware problem.  The crash took place in the Windows
kernel. Possibly this problem is caused by another driver that cannot be identified at this time. 

On Wed 1/3/2018 9:00:13 AM GMT your computer crashed
crash dump file: C:\WINDOWS\memory.dmp
This was probably caused by the following module: ntdll.sys (ntdll!ZwFlushBuffersFile+0x14)
Bugcheck code: 0x1E (0xFFFFFFFFC0000005, 0xFFFFF8019CED183E, 0xFFFF968442FBEB68, 0xFFFF968442FBE3B0)
Error: KMODE_EXCEPTION_NOT_HANDLED
Bug check description: This indicates that a kernel-mode program generated an exception
which the error handler did not catch. This appears to be a typical software driver bug
and is not likely to be caused by a hardware problem.  A third party driver was identified
as the probable root cause of this system error. It is suggested you look for an update for
the following driver: ntdll.sys.G
Google query: ntdll.sys KMODE_EXCEPTION_NOT_HANDLED

Los volcados de memoria (completos y mini) estarán aquí, según estén disponibles:https://1drv.ms/f/s!AhSzRvnavkrXhPpNy8Qjhaj6LbbTwQ


@ magicandre1981 recomendado chkdsk /fsegún los resultados de mi volcado de memoria. C:es la única unidad para la cual está habilitado un archivo de paginación (es administrado por el sistema), así que fue en esa en la que lo ejecuté. Aquí están los resultados:

Comprobando el sistema de archivos en C: El tipo de sistema de archivos es NTFS.

A disk check has been scheduled.
Windows will now check the disk.                         

Stage 1: Examining basic file system structure ...
  605184 file records processed.                                                         File verification completed.
Deleting orphan file record segment 699DD.
  10717 large file records processed.                                      0 bad file records processed.                                      
Stage 2: Examining file name linkage ...
  14846 reparse records processed.                                         704776 index entries processed.                                                        Index verification completed.
  0 unindexed files scanned.                                           0 unindexed files recovered to lost and found.                       14846 reparse records processed.                                       
Stage 3: Examining security descriptors ...
Cleaning up 1426 unused index entries from index $SII of file 0x9.
Cleaning up 1426 unused index entries from index $SDH of file 0x9.
Cleaning up 1426 unused security descriptors.
Security descriptor verification completed.
  49797 data files processed.                                            CHKDSK is verifying Usn Journal...
  37651904 USN bytes processed.                                                            Usn Journal verification completed.
CHKDSK discovered free space marked as allocated in the
master file table (MFT) bitmap.
CHKDSK discovered free space marked as allocated in the volume bitmap.

Windows has made corrections to the file system.
No further action is required.

 487284001 KB total disk space.
 209659436 KB in 259738 files.
    162276 KB in 49798 indexes.
         0 KB in bad sectors.
    729085 KB in use by the system.
     65536 KB occupied by the log file.
 276733204 KB available on disk.

      4096 bytes in each allocation unit.
 121821000 total allocation units on disk.
  69183301 allocation units available on disk.

Internal Info:
00 3c 09 00 f0 b8 04 00 7e 93 08 00 00 00 00 00  .<......~.......
98 05 00 00 66 34 00 00 00 00 00 00 00 00 00 00  ....f4..........

Windows has finished checking your disk.
Please wait while your computer restarts.

Sin suerte. Incluso después de que chkdsk solucionó estos problemas, sigo teniendo los mismos fallos, aunque todavía no hay nuevos BSOD.


Otro BSOD cuando abrí el navegador para actualizar esta pregunta. Memdumps disponibles una vez que terminen de cargarse.

Pero la razón original por la que vine a actualizar es que encontré una gran cantidad de eventos (51 para ser precisos) que se ven exactamente iguales. Parece que sucedieron aproximadamente cada media hora, comenzando justo después de que salí a trabajar (7:30 a. m.) hasta aproximadamente las 8:30 p. m. Es posible que todavía estén sucediendo. todos ellos parecenexactamenteeste:

Fault bucket 0x1E_c0000005_fltmgr!FltpPreFsFilterOperation, type 0
Event Name: BlueScreen
Response: Not available
Cab Id: 0

Problem signature:
P1: 1e
P2: ffffffffc0000005
P3: fffff8019ced183e
P4: ffff968442fbeb68
P5: ffff968442fbe3b0
P6: 10_0_16299
P7: 0_0
P8: 256_1
P9: 
P10: 

Attached files:
\\?\C:\WINDOWS\Minidump\010318-12546-01.dmp
\\?\C:\WINDOWS\TEMP\WER-18531-0.sysdata.xml
\\?\C:\ProgramData\Microsoft\Windows\WER\Temp\WER5795.tmp.WERInternalMetadata.xml
\\?\C:\ProgramData\Microsoft\Windows\WER\Temp\WER57A5.tmp.csv
\\?\C:\ProgramData\Microsoft\Windows\WER\Temp\WER57B6.tmp.txt
\\?\C:\Windows\Temp\WER8F12.tmp.WERDataCollectionStatus.txt

These files may be available here:
C:\ProgramData\Microsoft\Windows\WER\ReportQueue\Kernel_1e_b49232881f44bde28acca17f0ad8bac3b4fbb67_00000000_cab_031c57c4

Analysis symbol: 
Rechecking for solution: 0
Report Id: 3c2abe43-d7d6-4561-9b0d-2adf1f40c745
Report Status: 388
Hashed bucket: 

Me cuesta creer que la CPU tenga este problema durante tanto tiempo y que la computadora siga funcionando. No he tenido mucho éxito explorando problemas de software/configuración.

¿Algunas ideas?


Casi 3 semanas después... Después de MUCHAS travesuras, finalmente adquiero una nueva CPU (actualizada de Phenom II a FX-8350). El reemplazo fue bastante fácil. Luego, investigue áreas problemáticas comunes y las aplicaciones seguirán fallando.

Tan pronto como publiqué "cara triste", Windows me dijo algo sobre un "Informe de estado del dispositivo". Informa problemas con un conductor. Desafortunadamente, pero como era de esperar, el solucionador de problemas no pudo detectar ningún tipo de problema. Desinstalé los dos dispositivos "USB Root Hub" en estado de error desde el Administrador de dispositivos.

Rima con piscina

¿Esto proporciona alguna pista adicional? Estoy realmente perdido ahora...


¿Aquí hay una lista de información del conductor...? https://docs.google.com/spreadsheets/d/1xAliAOt1s8rQ_ePX5OwTRVFPB3kFYgc3-1HRUznMpR0/edit?usp=sharing

Respuesta1

Divide y vencerás

Primero, debe intentar determinar si se trata de un problema de hardware o software. A veces se trata de ambas cosas, pero inicialmente es mejor asumir que no.

En mi experiencia, la forma más eficaz de determinar qué campo tiene la culpa es arrancar en un segundo sistema operativo completamente diferente (sin cambiar ningún hardware, claro está) e intentar reproducir el problema. Es mejor usar un sistema operativo que no usecualquierdel mismo código que el sistema operativo sospechoso. Por ejemplo, si su sistema sospechoso ejecuta Windows, podría usar Ubuntu para su sistema operativo de prueba. Los CD en vivo son buenos para esto.

Con problemas que ocurren intermitentemente, esto puede ser un desafío, pero independientemente de cómo lo haga, necesita saber si:

  • Ambos sistemas operativos se ven afectados, lo que significa que tiene un problema de hardware, o
  • Sólo su sistema operativo sospechoso se ve afectado, lo que significa que puede tener:

    • Un problema de software, o
    • Una incompatibilidad entre un componente de hardware y un software específico (que casi siempre es un controlador de terceros).

Si crees que es hardware

Ya probó y reemplazó muchos componentes. Si el comportamiento no deseado se manifiesta en su sistema operativo de prueba, tendrá evidencia concluyente de que algo que aún no ha reemplazado tiene la culpa. Para aquellos componentes que no se prestan a pruebas exhaustivas (por ejemplo, la placa base), probablemente querrá intentar reemplazar primero otros componentes menos costosos, pero eventualmente puede que no tenga otra opción que cambiar también los componentes más costosos.

Si crees que es software

Si el sistema operativo de prueba no provoca la falla, puede estar más seguro de que hay un problema con el software en su sistema operativo de destino. Sin embargo, si históricamente la falla no se ha podido producir bajo demanda o ocurre solo de manera intermitente, existe la posibilidad de que siga siendo un problema de hardware que simplemente no se activó en el sistema operativo de prueba. No te detengas en esto; solo téngalo en cuenta cuando pruebe sus soluciones provisionales.

Al determinar qué código tiene la falla, obviamente desea realizar un seguimiento de mensajes de error específicos, como los códigos de verificación de errores de Windows, los errores registrados en los registros de eventos o en los registros específicos de la aplicación. Saltaré estos pasos basándose en el supuesto de que ha agotado esos clientes potenciales y necesita un enfoque más general.

Cuando no está claro qué software tiene la culpa, su arma preferida eseliminar el software de la ecuacióny ejecute el sistema el tiempo suficiente para que el problema tenga la oportunidad de ocurrir, si es que va a ocurrir. Puedes hacer esto mediante:

  1. Desinstale el software.
  2. Deshabilítelo usando una herramienta como Microsoft AutoRuns.
  3. Deshabilítelo iniciando en modo seguro.
  4. Cree una segunda instalación de Windowssinel software en cuestión (útil si realmente necesita el software para el uso diario y desea poder cambiar fácilmente entre el modo "prueba" y "producción").

Al hacer esto, me gusta clasificar el software del sistema de la siguiente manera y solucionar los problemas en consecuencia:

  1. Código propio de Windows y controladores de bandeja de entrada.Es menos probable que tenga la culpa. Se confirma fácilmente probando el sistema usando una instalación impecable (una sincualquiercódigo de terceros).
  2. Conductores de terceros.Siempre causando problemas. Por lo general, fallan de manera no aleatoria, de modo que surge un patrón. Pruebe utilizando diferentes versiones de controladores o intercambiando componentes de hardware.
  3. Software de nivel de sistema de terceros(por ejemplo, software de seguridad). Molesto. Rara vez son necesarios para el funcionamiento adecuado del sistema y se pueden desinstalar por completo para probar su influencia.
  4. Aplicaciones de usuario.Comportamiento de colisión muy variable. En las versiones modernas de Windows, estos rara vez fallan o bloquean todo el sistema. Los fallos sólo ocurren cuando la aplicación se está ejecutando, por lo que es fácil rastrearlos y correlacionarlos con los programas que se estaban ejecutando en ese momento. Tenga cuidado con las aplicaciones de usuario que tienen un componente siempre activo, como elementos de inicio o servicios de sistemas.

Mantenga un registro de trabajo semidetallado

Pensamiento final aquí. Mantenga un registro de los problemas que encuentre y de los pasos que siga para solucionarlos. Con un problema difícil y prolongado como éste, es fácil olvidar los detalles. Ser capaz de revisar esto mientras trabajas puede ayudarte a descartar causas o establecer conexiones entre hechos que de otro modo podrían perderse en la lucha.


Historia anecdótica

Trabajé en un sistema que me recuerda tu situación. Era una computadora portátil (lo que limitaba mis opciones de intercambio de hardware) que se bloqueaba aleatoriamente. Lo haría 10 segundos después del encendido, luego no durante días y luego después de estar encendido durante horas. Actualicé todo, probé y reemplacé todos los componentes de hardware que pude y reinstalé Windows (al menos una vez, si no dos).

Terminó siendo la placa base. Después de ser reemplazada, la computadora portátil funcionó durante muchos años sin más problemas.

información relacionada