Разделяй и властвуй

Разделяй и властвуй

РЕШЕНИЕ: Все это время были настройки ОЗУ :-| Мне никогда не приходило в голову, что стандартные настройки на стандартной плате со стандартной ОЗУ будут настолько далеки от нормальных, что это приведет к нестабильности системы. Я никогда не занимался разгоном, поэтому никогда не смотрел внимательно на эти настройки. Как только я выбрал профиль DOCP, соответствующий моей ОЗУ, все прояснилось, и она даже стала немного быстрее. Спасибо Twisty Impersonator за руководство по процессу и magicandre1981 за предложение, которое побудило меня проверить настройки. Надеюсь, это сэкономит кому-то еще 2 года разочарования.

EDIT: Ну, я думаю, причина стала ясна. После замены ВСЕГО оборудования и ВСЕ ЕЩЕ наблюдая проблему, я решил вернуться к идее оборудования. Короче говоря: если я работаю с двумя планками ОЗУ, все в порядке. Неважно, какие именно две планки. Если я вставляю все четыре, у меня начинаются проблемы. Это кажется довольно явным признаком плохой материнской платы.

Симптомы:

За последние несколько лет моя машина вообще была нестабильна, выключалась и включалась. Обычно проявляется в виде BSOD с различными кодами остановок.

  • Обновление оперативной памяти на некоторое время повысило стабильность.
  • Обновление материнской платы на некоторое время улучшило стабильность.
  • Замена C:привода на некоторое время улучшила стабильность.
  • Иногда требуется обновление или переустановка ОС, что обычно на некоторое время повышает стабильность.

Я заменил буквально все функциональные компоненты в системе, кроме процессора и привода Blu-ray.. Я не исключаю процессор, но есть еще целый ряд программных «вещей», которые также могут быть причиной неполадки.

Каждый раз проблема возвращалась через несколько месяцев.


Совсем недавно симптомы немного изменились. Я допускаю возможность, что это совершенно не связанная проблема, но она кажется слишком похожей на те проблемы, с которыми я боролся все это время, чтобы быть простым совпадением.

Несколько недель я перезагрузил свой компьютер, чтобы обновиться, но он не POST. Я возился с ним некоторое время (проверял соединения, MemOK!кнопки, отключал питание, TPUвкл/выкл, EPUвкл/выкл и т. д.) и добился POST, но ОС не загружалась. Я забыл точное представление симптомов, но я знаю, что он просто сидел и вращался.

Переустановил ОС, и все было тихо примерно неделю, пока приложения не начали зависать. Сначала казалось, что все приложения, которые зависали, были установлены на одном SSD. Не имея места для перемещения вещей и тестирования, я обновился до новых дисков Samsung. Но приложения все еще зависают.

  • Прошил последнее обновление BIOS. Никаких изменений.
    • Оказывается, при прошивке BIOS нужно сбросить CMOS. Возможные симптомы очень похожи на мои. Я сбросил CMOS. Никаких изменений.
  • Обычно это были высокозатратные приложения, которые вылетали (Dishonored 2, Diablo III, ESO и т. д.). Но вылеты происходят при температуре от 35°C до 45°C для CPU и GPU - так что, вероятно, дело не в температуре.
  • Оперативная память не заканчивается.
  • MemTestникогда не было никаких проблем. Я запускал его десятки раз.
  • Ни один тест процессора не выявил никаких проблем, за исключением случаев высоких температур.
  • Ни один тест графического процессора не выявил никаких проблем, за исключением случаев высоких температур.
  • Я переустанавливал видеодрайверы несколько десятков раз.
  • Вчера во время просмотра у меня произошел сбой в работе диспетчера задач.
  • Попытался установить приложение Windows Store. Какой-то фоновый процесс дал сбой. Пришлось попробовать еще раз. Сработало нормально.
  • В Event Viewer есть только AppCrashсобытия

AppCrashСобытия производятся широким спектром приложений. Разные размеры, местоположения, требования и т. д. Обычно это происходит раз в день, может быть, реже. Но ресурсоемкие приложения довольно надежно падают в течение 30 минут или около того.

Я должен уточнить, что это не Windows is looking for a solutionсобытия AppHang. Приложение просто исчезает, как будто я его закрыл, и Windows ничего не говорит об этом, кроме события AppCrash в Event Viewer. Реже бывает BSOD. В последнее время я видел IRQ not less than or equalи другие, которые я не могу вспомнить... (У меня больше нет дампов памяти? Это странно...).

Характеристики системы:

  • ОПЕРАЦИОННЫЕ СИСТЕМЫ:Windows 10 Pro (обновлено с Win7 в период бесплатного обновления)
  • ПРОЦЕССОР:AMD Phenom II 1090 (без разгона)
  • Охлаждение:Вентиляторы для процессора CoolerMaster 150 мм, несколько корпусных вентиляторов
  • Материнская плата:ASUS M4A99X EVO R2.0
  • БАРАН:G.Skill 16 ГБ(4x4) DDR3-1333
  • Графический процессор:MSI GTX 970 (без разгона)
  • Блок питания:Корсар CX750M
  • Системный диск:Samsung 850 EVO 500 ГБ
  • Другие диски:Samsung 850 EVO 500 ГБ, другие обычные диски, оптический привод
  • СРЕДНИЙ:Защитник Windows, никаких других антивирусов

Аварийный дамп:

По мотивам этого поста:https://superuser.com/questions/1281659/возможно-определить-какое-ядро-было-неисправно-приложение-при-оно-сбой

Вчера вечером, когда он простаивал, получил новый BSOD. Подробности WhoCrashedниже:

Crash dump directory: C:\WINDOWS\Minidump
Crash dumps are enabled on your computer.

On Wed 1/3/2018 9:00:13 AM GMT your computer crashed
crash dump file: C:\WINDOWS\Minidump\010318-12546-01.dmp
This was probably caused by the following module: ntoskrnl.exe (nt+0x1640E0)
Bugcheck code: 0x1E (0xFFFFFFFFC0000005, 0xFFFFF8019CED183E, 0xFFFF968442FBEB68, 0xFFFF968442FBE3B0)
Error: KMODE_EXCEPTION_NOT_HANDLED
file path: C:\WINDOWS\system32\ntoskrnl.exe
product: Microsoft® Windows®
Operating System company: Microsoft Corporation
description: NT Kernel & System
Bug check description: This indicates that a kernel-mode program generated an exception
which the error handler did not catch. This appears to be a typical software driver bug
and is not likely to be caused by a hardware problem.  The crash took place in the Windows
kernel. Possibly this problem is caused by another driver that cannot be identified at this time. 

On Wed 1/3/2018 9:00:13 AM GMT your computer crashed
crash dump file: C:\WINDOWS\memory.dmp
This was probably caused by the following module: ntdll.sys (ntdll!ZwFlushBuffersFile+0x14)
Bugcheck code: 0x1E (0xFFFFFFFFC0000005, 0xFFFFF8019CED183E, 0xFFFF968442FBEB68, 0xFFFF968442FBE3B0)
Error: KMODE_EXCEPTION_NOT_HANDLED
Bug check description: This indicates that a kernel-mode program generated an exception
which the error handler did not catch. This appears to be a typical software driver bug
and is not likely to be caused by a hardware problem.  A third party driver was identified
as the probable root cause of this system error. It is suggested you look for an update for
the following driver: ntdll.sys.G
Google query: ntdll.sys KMODE_EXCEPTION_NOT_HANDLED

Дампы памяти (полные и мини) будут здесь, по мере их доступности:https://1drv.ms/f/s!AhSzRvnavkrXhPpNy8Qjhaj6LbbTwQ


@magicandre1981 рекомендовал chkdsk /fна основе результатов моего дампа памяти. C:это единственный диск, для которого включен файл подкачки (он управляется системой), поэтому я запустил его на нем. Вот результаты:

Проверка файловой системы на диске C: Тип файловой системы — NTFS.

A disk check has been scheduled.
Windows will now check the disk.                         

Stage 1: Examining basic file system structure ...
  605184 file records processed.                                                         File verification completed.
Deleting orphan file record segment 699DD.
  10717 large file records processed.                                      0 bad file records processed.                                      
Stage 2: Examining file name linkage ...
  14846 reparse records processed.                                         704776 index entries processed.                                                        Index verification completed.
  0 unindexed files scanned.                                           0 unindexed files recovered to lost and found.                       14846 reparse records processed.                                       
Stage 3: Examining security descriptors ...
Cleaning up 1426 unused index entries from index $SII of file 0x9.
Cleaning up 1426 unused index entries from index $SDH of file 0x9.
Cleaning up 1426 unused security descriptors.
Security descriptor verification completed.
  49797 data files processed.                                            CHKDSK is verifying Usn Journal...
  37651904 USN bytes processed.                                                            Usn Journal verification completed.
CHKDSK discovered free space marked as allocated in the
master file table (MFT) bitmap.
CHKDSK discovered free space marked as allocated in the volume bitmap.

Windows has made corrections to the file system.
No further action is required.

 487284001 KB total disk space.
 209659436 KB in 259738 files.
    162276 KB in 49798 indexes.
         0 KB in bad sectors.
    729085 KB in use by the system.
     65536 KB occupied by the log file.
 276733204 KB available on disk.

      4096 bytes in each allocation unit.
 121821000 total allocation units on disk.
  69183301 allocation units available on disk.

Internal Info:
00 3c 09 00 f0 b8 04 00 7e 93 08 00 00 00 00 00  .<......~.......
98 05 00 00 66 34 00 00 00 00 00 00 00 00 00 00  ....f4..........

Windows has finished checking your disk.
Please wait while your computer restarts.

Не повезло. Даже после того, как chkdsk исправил эти проблемы, у меня все еще те же сбои, хотя новых BSOD пока нет.


Еще один BSOD, когда я открывал браузер, чтобы обновить этот вопрос. Memdumps доступны после завершения загрузки.

Но изначально я решил обновиться, потому что нашел кучу событий (51, если быть точным), которые выглядят совершенно одинаково. Похоже, они происходили примерно каждые полчаса, начиная с того момента, как я ушел на работу (7:30 утра) и до 8:30 вечера. Они все еще могут происходить. Они все выглядят какточноэтот:

Fault bucket 0x1E_c0000005_fltmgr!FltpPreFsFilterOperation, type 0
Event Name: BlueScreen
Response: Not available
Cab Id: 0

Problem signature:
P1: 1e
P2: ffffffffc0000005
P3: fffff8019ced183e
P4: ffff968442fbeb68
P5: ffff968442fbe3b0
P6: 10_0_16299
P7: 0_0
P8: 256_1
P9: 
P10: 

Attached files:
\\?\C:\WINDOWS\Minidump\010318-12546-01.dmp
\\?\C:\WINDOWS\TEMP\WER-18531-0.sysdata.xml
\\?\C:\ProgramData\Microsoft\Windows\WER\Temp\WER5795.tmp.WERInternalMetadata.xml
\\?\C:\ProgramData\Microsoft\Windows\WER\Temp\WER57A5.tmp.csv
\\?\C:\ProgramData\Microsoft\Windows\WER\Temp\WER57B6.tmp.txt
\\?\C:\Windows\Temp\WER8F12.tmp.WERDataCollectionStatus.txt

These files may be available here:
C:\ProgramData\Microsoft\Windows\WER\ReportQueue\Kernel_1e_b49232881f44bde28acca17f0ad8bac3b4fbb67_00000000_cab_031c57c4

Analysis symbol: 
Rechecking for solution: 0
Report Id: 3c2abe43-d7d6-4561-9b0d-2adf1f40c745
Report Status: 388
Hashed bucket: 

Мне трудно поверить, что процессор мог иметь эту проблему так долго, а компьютер все еще был функционален. Я не добился большого успеха в исследовании проблем с программным обеспечением/конфигурацией.

Есть идеи?


Почти 3 недели спустя... После МНОГО махинаций я наконец-то приобрел новый процессор (обновил с Phenom II до FX-8350). Замена была достаточно простой. Затем проверил общие проблемные области, и приложения все еще зависают.

Как только я запостил "sad-face", Windows сообщила мне что-то о "Device Health Report". Он сообщает о проблемах с драйвером. К сожалению, но неудивительно, Troubleshooter не смог обнаружить никаких проблем. Я удалил два устройства "USB Root Hub" в состоянии ошибки из диспетчера устройств.

Рифмуется с Pool.

Дает ли это какие-либо дополнительные подсказки? Я действительно в растерянности, теперь...


Вот список информации для водителей...? https://docs.google.com/spreadsheets/d/1xAliAOt1s8rQ_ePX5OwTRVFPB3kFYgc3-1HRUznMpR0/edit?usp=sharing

решение1

Разделяй и властвуй

Во-первых, вы должны попытаться определить, является ли это аппаратной или программной проблемой. Иногда это касается и того, и другого, но изначально лучше предположить, что нет.

По моему опыту, наиболее эффективный способ определить, какой лагерь виноват, — загрузить вторую, совершенно другую ОС (не меняя никакого оборудования, заметьте) и попытаться воспроизвести проблему. Лучше всего использовать ОС, которая не используетлюбойтого же кода, что и подозреваемая ОС. Например, если ваша подозреваемая система работает под управлением Windows, вы можете использовать Ubuntu для своей тестовой ОС. Live CD хорошо подходят для этого.

При периодически возникающих проблемах это может быть непросто, но как бы вы к этому ни подошли, вам необходимо знать:

  • Уязвимы обе ОС, то есть у вас проблема с оборудованием, или
  • Уязвимости подвержена только ваша подозреваемая ОС, то есть у вас может быть одно из следующего:

    • Проблема с программным обеспечением или
    • Несовместимость между аппаратным компонентом и определенным программным обеспечением (которое почти всегда представляет собой сторонний драйвер).

Если вы думаете, что это аппаратное обеспечение

Вы уже протестировали и заменили множество компонентов. Если нежелательное поведение проявляется в вашей тестовой ОС, вы вооружены неопровержимым доказательством того, что проблема в чем-то, что вы еще не заменили. Для тех компонентов, которые не поддаются всестороннему тестированию (например, материнская плата), вы, вероятно, захотите сначала попробовать заменить другие, менее дорогие компоненты, но в конечном итоге у вас может не остаться выбора, кроме как заменить и более дорогие компоненты.

Если вы думаете, что это программное обеспечение

Если тестовая ОС не вызывает сбой, вы можете быть более уверены, что проблема в программном обеспечении вашей целевой ОС. Однако, если сбой исторически не мог быть произведен по требованию или иным образом происходит только периодически, остается вероятность, что это все еще аппаратная проблема, которая просто не была вызвана в тестовой ОС. Не зацикливайтесь на этом; просто помните об этом при тестировании ваших предварительных решений.

При разборе того, какой код является неисправным, вы, очевидно, хотите следить за конкретными сообщениями об ошибках, такими как коды проверки ошибок Windows, ошибки, зарегистрированные в журналах событий или в журналах, специфичных для приложений. Я пропущу эти шаги, исходя из предположения, что вы исчерпали эти зацепки и вам нужен более общий подход.

Когда неясно, какое именно программное обеспечение является причиной неполадки, ваш выбор —удалить программное обеспечение из уравненияи запустить систему достаточно долго, чтобы дать проблеме шанс проявиться, если она собирается проявиться. Вы можете сделать это следующим образом:

  1. Удалите программное обеспечение.
  2. Отключите его с помощью такого инструмента, как Microsoft AutoRuns.
  3. Отключите его, загрузившись в безопасном режиме.
  4. Создайте вторую установку Windowsбезрассматриваемое программное обеспечение (полезно, если вам действительно нужно программное обеспечение для повседневного использования и вы хотите иметь возможность легко переключаться между режимами «тестирования» и «производства»).

При этом я предпочитаю классифицировать программное обеспечение системы следующим образом и устранять неполадки соответствующим образом:

  1. Собственный код Windows и встроенные драйверы.Наименее вероятно, что это ошибка. Легко подтверждается путем тестирования системы с использованием чистой установки (безлюбой(сторонний код).
  2. Драйверы сторонних производителей.Всегда вызывает проблемы. Обычно сбои происходят неслучайным образом, так что появляется шаблон. Протестируйте, используя разные версии драйверов или меняя аппаратные компоненты.
  3. Программное обеспечение стороннего системного уровня(например, программное обеспечение безопасности). Неприятно. Они редко требуются для правильной работы системы и могут быть полностью удалены, чтобы проверить их влияние.
  4. Пользовательские приложения.Очень изменчивое поведение сбоев. В современных версиях Windows они редко приводят к сбоям или блокировке всей системы. Сбои происходят только во время работы приложения, поэтому их легко отслеживать и сопоставлять с программами, которые работали в это время. Следите за пользовательскими приложениями, которые имеют постоянно включенный компонент, такой как элементы автозагрузки или системные службы.

Ведите полуподробный журнал работ

Последняя мысль здесь. Ведите журнал вопросов о проблемах, с которыми вы сталкиваетесь, и шагов по устранению неполадок, которые вы предпринимаете. С такой сложной и затянувшейся проблемой, как эта, легко забыть детали. Возможность просмотреть это во время работы может помочь вам исключить причины или установить связи между фактами, которые в противном случае могли бы быть утеряны в борьбе.


Анекдотическая история

Я работал над системой, которая напоминает мне вашу ситуацию. Это был ноутбук (который ограничивал мои возможности по замене оборудования), который зависал случайным образом. Он делал это через 10 секунд после включения, потом не зависал в течение нескольких дней, а затем после нескольких часов работы. Я обновил все, протестировал и заменил все возможные компоненты оборудования и переустановил Windows (по крайней мере один раз, если не два).

В итоге это оказалась материнская плата. После ее замены ноутбук проработал много лет без дальнейших проблем.

Связанный контент