分而治之

分而治之

解決方案:一直都是 RAM 設定:-|我從來沒有想到,具有庫存 RAM 的主機板上的庫存設定會相差如此之大,以至於會導致系統不穩定。我從來沒有超頻過,所以我從來沒有仔細研究過這些設定。一旦我選擇了與我的 RAM 相匹配的 DOCP 配置文件,一切就都清楚了,而且速度甚至更快了一點。感謝 Twisty Impersonator 的流程指南和 magicandre1981 的建議,促使我檢查設定。希望這能讓其他人免去兩年的挫敗感。

編輯:嗯,我認為原因已經很清楚了。更換所有硬體後,仍然發現問題,我決定回到硬體想法。簡而言之:如果我用兩根記憶體運行,一切都很好。哪兩根棍子並不重要。如果我把四個都放進去,我就會開始遇到問題。這似乎非常清楚地表明主機板損壞。

症狀:

在過去的幾年裡,我的機器通常不穩定,時斷時續。通常表現為具有不同停止代碼的 BSOD。

  • 升級RAM暫時提高了穩定性。
  • 升級主機板,穩定性提升了一段時間。
  • 更換C:驅動器暫時提高了穩定性。
  • 偶爾需要刷新或重新安裝作業系統,通常可以暫時提高穩定性。

我幾乎更換了系統中的所有功能組件,除了 CPU 和藍光驅動器。我並沒有排除 CPU 的可能性,但仍然有大量的軟體「東西」也可能有問題。

每次,問題都會在幾個月後再次出現。


最近,症狀略有變化。我願意接受這是一個完全不相關的問題的可能性,但它似乎與我一直在努力解決的問題太相似,而不僅僅是巧合。

幾週後我重新啟動計算機進行更新,但沒有POST。我對它大驚小怪了一段時間(檢查連接、MemOK!按鈕、斷開電源、TPU開/關、EPU開/關等)並得到它POST,但操作系統無法加載。我忘記了症狀的具體表現,但 IIRC 它只是坐著旋轉。

重新安裝了作業系統,大約一周左右的時間一切都很平靜,直到應用程式開始崩潰。起初,似乎所有崩潰的應用程式都安裝在同一個 SSD 上。由於沒有空間移動和測試,我升級到了新的三星驅動器。但應用程式仍然崩潰。

  • 刷新了最新的 BIOS 更新。不用找了。
    • 事實證明,刷新 BIOS 時必須重置 CMOS。潛在的症狀很像我的。我重置了CMOS。不用找了。
  • 通常是高要求的應用程式會崩潰(恥辱 2、暗黑破壞神 III、ESO 等)。但 CPU 和 GPU 的崩潰發生在 35°C-45°C 之間 - 所以可能不是溫度。
  • 它沒有耗盡 RAM。
  • MemTest從未表現出任何問題。我已經運行了幾十次了。
  • 除高溫情況外,CPU 測試從未顯示任何問題。
  • GPU 測試從未顯示出任何問題,除非在高溫下。
  • 我已經重新安裝了視訊驅動程式幾十次。
  • 我昨天看的時候任務管理器崩潰了。
  • 嘗試安裝 Windows 應用程式商店應用程式。某些後台進程崩潰了。不得不再試一次。工作得很好。
  • 事件檢視器只有AppCrash事件

AppCrash事件是由廣泛的應用程式產生的。大小、位置、需求等各不相同。但高資源應用程式在 30 分鐘左右就會崩潰。

我應該澄清一下,這些不是Windows is looking for a solutionAppHang 事件。應用程式就消失了,就像我關閉了它一樣,除了事件檢視器中的 AppCrash 事件之外,Windows 對此沒有任何可說的。很少出現 BSOD。最近,我看到了IRQ not less than or equal,以及其他我不記得的......(我不再有任何內存轉儲?這很奇怪......)。

系統規格:

  • 作業系統:Windows 10 Pro(免費升級期間從Win7升級)
  • 中央處理器:AMD Phenom II 1090(無超頻)
  • 冷卻:CoolerMaster 150mm CPU 風扇,多個機殼風扇
  • 主機板:華碩 M4A99X EVO R2.0
  • 記憶體:奇技 16GB(4x4) DDR3-1333
  • 圖形處理器:微星 GTX 970(無超頻)
  • 電源:海盜船 CX750M
  • 系統驅動器:三星 850 EVO 500GB
  • 其他驅動器:三星 850 EVO 500GB、其他常規驅動器、光碟機
  • 影音:Windows Defender,沒有其他 AV

崩潰轉儲:

受此貼文提示:https://superuser.com/questions/1281659/possible-to-define-which-core-a-faulting-application-was-on-when-it-crashed

昨晚閒置時遇到新的 BSOD。詳細資訊WhoCrashed如下:

Crash dump directory: C:\WINDOWS\Minidump
Crash dumps are enabled on your computer.

On Wed 1/3/2018 9:00:13 AM GMT your computer crashed
crash dump file: C:\WINDOWS\Minidump\010318-12546-01.dmp
This was probably caused by the following module: ntoskrnl.exe (nt+0x1640E0)
Bugcheck code: 0x1E (0xFFFFFFFFC0000005, 0xFFFFF8019CED183E, 0xFFFF968442FBEB68, 0xFFFF968442FBE3B0)
Error: KMODE_EXCEPTION_NOT_HANDLED
file path: C:\WINDOWS\system32\ntoskrnl.exe
product: Microsoft® Windows®
Operating System company: Microsoft Corporation
description: NT Kernel & System
Bug check description: This indicates that a kernel-mode program generated an exception
which the error handler did not catch. This appears to be a typical software driver bug
and is not likely to be caused by a hardware problem.  The crash took place in the Windows
kernel. Possibly this problem is caused by another driver that cannot be identified at this time. 

On Wed 1/3/2018 9:00:13 AM GMT your computer crashed
crash dump file: C:\WINDOWS\memory.dmp
This was probably caused by the following module: ntdll.sys (ntdll!ZwFlushBuffersFile+0x14)
Bugcheck code: 0x1E (0xFFFFFFFFC0000005, 0xFFFFF8019CED183E, 0xFFFF968442FBEB68, 0xFFFF968442FBE3B0)
Error: KMODE_EXCEPTION_NOT_HANDLED
Bug check description: This indicates that a kernel-mode program generated an exception
which the error handler did not catch. This appears to be a typical software driver bug
and is not likely to be caused by a hardware problem.  A third party driver was identified
as the probable root cause of this system error. It is suggested you look for an update for
the following driver: ntdll.sys.G
Google query: ntdll.sys KMODE_EXCEPTION_NOT_HANDLED

記憶體轉儲(完整和迷你)將在此處,因為它們可用:https://1drv.ms/f/s!


@magicandre1981chkdsk /f根據我的記憶體轉儲結果推薦。C:是唯一啟用頁面文件的驅動器(它是系統管理的),所以這就是我運行它的驅動器。結果如下:

檢查C盤檔案系統:檔案系統類型為NTFS。

A disk check has been scheduled.
Windows will now check the disk.                         

Stage 1: Examining basic file system structure ...
  605184 file records processed.                                                         File verification completed.
Deleting orphan file record segment 699DD.
  10717 large file records processed.                                      0 bad file records processed.                                      
Stage 2: Examining file name linkage ...
  14846 reparse records processed.                                         704776 index entries processed.                                                        Index verification completed.
  0 unindexed files scanned.                                           0 unindexed files recovered to lost and found.                       14846 reparse records processed.                                       
Stage 3: Examining security descriptors ...
Cleaning up 1426 unused index entries from index $SII of file 0x9.
Cleaning up 1426 unused index entries from index $SDH of file 0x9.
Cleaning up 1426 unused security descriptors.
Security descriptor verification completed.
  49797 data files processed.                                            CHKDSK is verifying Usn Journal...
  37651904 USN bytes processed.                                                            Usn Journal verification completed.
CHKDSK discovered free space marked as allocated in the
master file table (MFT) bitmap.
CHKDSK discovered free space marked as allocated in the volume bitmap.

Windows has made corrections to the file system.
No further action is required.

 487284001 KB total disk space.
 209659436 KB in 259738 files.
    162276 KB in 49798 indexes.
         0 KB in bad sectors.
    729085 KB in use by the system.
     65536 KB occupied by the log file.
 276733204 KB available on disk.

      4096 bytes in each allocation unit.
 121821000 total allocation units on disk.
  69183301 allocation units available on disk.

Internal Info:
00 3c 09 00 f0 b8 04 00 7e 93 08 00 00 00 00 00  .<......~.......
98 05 00 00 66 34 00 00 00 00 00 00 00 00 00 00  ....f4..........

Windows has finished checking your disk.
Please wait while your computer restarts.

沒有運氣。即使在 chkdsk 修復了這些問題之後,我仍然遇到同樣的崩潰,儘管還沒有新的 BSOD。


當我打開瀏覽器來更新這個問題時,又發生了一次藍屏死機。上傳完成後,記憶體轉儲即可使用。

但我來更新的最初原因是我發現了一大堆看起來一模一樣的事件(準確地說是 51 個)。看起來它們大約每半小時發生一次,從我上班後(上午 7:30)開始,直到晚上 8:30 左右。它們可能仍在發生。他們看起來都像確切地這:

Fault bucket 0x1E_c0000005_fltmgr!FltpPreFsFilterOperation, type 0
Event Name: BlueScreen
Response: Not available
Cab Id: 0

Problem signature:
P1: 1e
P2: ffffffffc0000005
P3: fffff8019ced183e
P4: ffff968442fbeb68
P5: ffff968442fbe3b0
P6: 10_0_16299
P7: 0_0
P8: 256_1
P9: 
P10: 

Attached files:
\\?\C:\WINDOWS\Minidump\010318-12546-01.dmp
\\?\C:\WINDOWS\TEMP\WER-18531-0.sysdata.xml
\\?\C:\ProgramData\Microsoft\Windows\WER\Temp\WER5795.tmp.WERInternalMetadata.xml
\\?\C:\ProgramData\Microsoft\Windows\WER\Temp\WER57A5.tmp.csv
\\?\C:\ProgramData\Microsoft\Windows\WER\Temp\WER57B6.tmp.txt
\\?\C:\Windows\Temp\WER8F12.tmp.WERDataCollectionStatus.txt

These files may be available here:
C:\ProgramData\Microsoft\Windows\WER\ReportQueue\Kernel_1e_b49232881f44bde28acca17f0ad8bac3b4fbb67_00000000_cab_031c57c4

Analysis symbol: 
Rechecking for solution: 0
Report Id: 3c2abe43-d7d6-4561-9b0d-2adf1f40c745
Report Status: 388
Hashed bucket: 

我很難相信CPU會出現這個問題這麼長時間,而電腦仍然可以正常工作。我在探索軟體/配置問題方面沒有取得太大成功。

有任何想法嗎?


差不多三週後…經過一番苦心經營,我終於獲得了新的 CPU(從 Phenom II 升級到 FX-8350)。更換很容易。然後探究常見問題區域,應用程式仍然崩潰。

我一發布“悲傷的表情”,Windows 就告訴我一些有關“設備健康報告”的資訊。它報告了司機的問題。不幸的是,但毫不奇怪的是,故障排除程序無法檢測到任何類型的問題。我從裝置管理員中卸載了兩個處於錯誤狀態的「USB Root Hub」裝置。

它與 泳池 押韻

這是否提供了任何額外的線索?我現在真的很失落…


這是驅動程式資訊列表...? https://docs.google.com/spreadsheets/d/1xAliAOt1s8rQ_ePX5OwTRVFPB3kFYgc3-1HRUznMpR0/edit?usp=sharing

答案1

分而治之

首先,您必須嘗試確定這是硬體還是軟體問題。有時兩者都涉及,但最初最好假設不是。

根據我的經驗,確定哪個陣營有問題的最有效方法是啟動到第二個完全不同的作業系統(請注意,無需更改任何硬體)並嘗試重現問題。最好使用不使用的作業系統任何與可疑作業系統具有相同的程式碼。例如,如果您的可疑系統運行 Windows,您可以使用 Ubuntu 作為測試作業系統。 Live CD 對此很有幫助。

對於間歇性出現的問題,這可能具有挑戰性,但無論您如何解決,您都需要知道是否:

  • 兩個作業系統都會受到影響,這意味著您有硬體問題,或者
  • 只有您的可疑作業系統受到影響,這意味著您可能有:

    • 軟體問題,或
    • 硬體組件和特定軟體(幾乎總是第三方驅動程式)之間不相容。

如果你認為這是硬件

您已經測試並更換了許多組件。如果您的測試作業系統中出現了不良行為,那麼您就掌握了確鑿的證據,表明您尚未替換的某些東西有問題。對於那些不適合進行全面測試的組件(例如主機板),您可能會先嘗試更換其他成本較低的組件,但最終您可能別無選擇,只能更換更昂貴的組件。

如果你認為它是軟體

如果測試作業系統沒有觸發故障,您就可以更確信目標作業系統中的軟體有問題。但是,如果歷史上無法按需產生故障或僅間歇性地發生故障,則仍然有可能是測試作業系統中未觸發的硬體問題。不要糾纏於此;在測試您的暫定解決方案時請記住這一點。

在找出有問題的程式碼時,您顯然希望追蹤特定的錯誤訊息,例如 Windows 的錯誤檢查程式碼、事件日誌中或特定於應用程式的日誌中記錄的錯誤。基於您已經用盡這些線索並且需要更通用的方法的假設,我將跳過這些步驟。

當不清楚哪個軟體出了問題時,您選擇的武器是從方程式中移除軟體並讓系統運作足夠長的時間,以便問題有可能發生(如果有可能的話)。您可以透過以下方式執行此操作:

  1. 卸載軟體。
  2. 使用 Microsoft AutoRuns 等工具停用它。
  3. 透過啟動進入安全模式來停用它。
  4. 建立第二個 Windows 安裝沒有有問題的軟體(如果您確實需要該軟體進行日常使用並且希望能夠在“測試”和“生產”模式之間輕鬆切換,則非常有用)。

執行此操作時,我喜歡對系統軟體進行如下分類並相應地進行故障排除:

  1. Windows 自己的程式碼和內建驅動程式。出錯的可能性最小。透過使用原始安裝(沒有安裝的系統)測試系統可以輕鬆確認任何第 3 方代碼)。
  2. 第三方驅動程式。總是惹麻煩。通常會以非隨機方式崩潰,從而出現某種模式。透過使用不同的驅動程式版本或更換硬體組件進行測試。
  3. 第三方系統級軟體(例如安全軟體)。麻煩。這些對於正常的系統操作很少需要,可以完全卸載以測試它們的影響。
  4. 用戶應用程式。高度可變的碰撞行為。在現代版本的 Windows 上,這些很少會導致整個系統崩潰或鎖定。故障僅在應用程式運行時發生,因此可以輕鬆追蹤故障並將其與當時正在運行的程式關聯起來。請注意具有始終在線元件(例如啟動項目或系統服務)的使用者應用程式。

保留半詳細的工作日誌

最後的想法在這裡。記錄您遇到的問題以及您採取的故障排除步驟。對於像這樣的困難且曠日持久的問題,很容易忘記細節。能夠在工作時回顧這一點可能會幫助您排除原因或在事實之間建立聯繫,否則這些事實可能會在鬥爭中丟失。


軼事故事

我開發了一個可以提醒我你的情況的系統。這是一台會隨機鎖定的筆記型電腦(這限制了我的硬體交換選項)。它會在通電後 10 秒內執行此操作,然後幾天內不會執行此操作,然後在打開幾個小時後執行此操作。我更新了所有內容,測試並更換了所有可能的硬體組件,並重新安裝了 Windows(至少一次,如果不是兩次)。

它最終成為主機板。更換後,筆記型電腦運行了很多年,沒有再出現任何問題。

相關內容