マシンの温度値を監視していると、負荷が高い状態で温度の 1 つが徐々に上昇し、最終的に からの緊急シャットダウンがトリガーされていることがわかりましたthermald
。
熱センサーの種類/sys/class/thermal/thermal_zone*/type
とそれに対応する温度については、/sys/class/thermal/thermal_zone*/temp
しかし、 によって返される値の定義はどこにも見つかりませんでした/sys/class/thermal/thermal_zone*/type
。 たとえば のように、いくつかは説明がなくてもわかるように見えますTCPU
。 しかし、私にとって問題なのはAMBF
であり、それが何を指すのか全くわかりません。
AMBF
これが何の略なのか、また、さまざまな種類のサーマルゾーンに関するドキュメントがどこで見つかるのか知っている人はいますか?
編集:
問題が最初に発生してから多くの検索を行いましたが、次のような結果が得られました。
私は熱センサーを監視し、次のグラフを作成しました CPUとメモリの温度は適切に管理されていることがわかります(CPU TCaseは100°Cなので、決して超えることはありません)。しかし、一方の温度は
AMBF
上昇し続け、80°Cの臨界値に達し、緊急シャットダウンを引き起こします。ACPIテーブルを閲覧して、ようやくそれが
AMBF
何を意味するのかを見つけることができました。AMB and Near Fan Temperature (QE3)
私は、そこでテストするという特別な目的のために Windows 10 OS をインストールしました。そして:
- エントリ
AMBF
はACPIテーブルに表示されません(私が見る限り) - この問題はWindowsでは発生しません。まったく同じテストを実行しても緊急シャットダウンは発生しません。
- エントリ
デルは最近、重要な顧客向けアドバイスを公開した。
(Dell Technologies 内部参照 ID – Dell Technologies ET004676)
このカスタマー アドバイザリは、モダン スタンバイからサーマル シャットダウンが発生する可能性がある特定の Optiplex および Precision システムに関する最近の発見についてお知らせするものです。Dell Technologies は、最適なシステム パフォーマンスを維持し、問題の発生を回避するために、最新の BIOS にすぐにアップグレードすることを推奨しています。
言うまでもなく、私はすでに最新の BIOS バージョンを使用していました。しかし、このカスタマー アドバイザリが、なぜ Windows で問題が起こらないのかを説明しているのではないかと思います...そこで、acpi_osi=! acpi_osi='Windows 2019'
ブート コマンド ラインを使用して、ACPI の観点から Windows マシンを装いながら Linux システムを起動してみました。残念ながら、何も変わりませんでした。
とにかく、私はまだ同じ状況にあり、購入した目的のためにマシンを使用することができません。さらなるアイデアがあれば大歓迎です。
答え1
私の理解では、サーマルゾーンの名前はハードウェアによって定義されます。
たとえば、Intel PC マザーボード上の標準ゾーンの名前は次のようになります。x86_pkg_temp
Raspberry Pi の標準ゾーンの名前は次のとおりです。cpu-thermal
したがって、このようなことを確認するには、特定のハードウェアに必要なドライバー/モジュールのカーネル ソース コードを参照する必要がある可能性があります。
lm-sensors
パッケージをインストールし、その後 を実行するとうまくいくかもしれませんsudo sensors-detect
。
完了すると、検出されたセンサーに必要なカーネル モジュールが一覧表示されます。
実際、私は上記のことを実行したところ、次のような結果が出ました。
Intel digital thermal sensor... Success!
(driver `coretemp')
Intel AMB FB-DIMM thermal sensor... No
AMBF
ゾーンが - を指していることはほぼ確実ですIntel AMB FB-DIMM thermal sensor
。したがって、この場合、焼損しているのはメモリである可能性があります。
答え2
AMBF
最終的に、Dell サポートから、センサーは無視しても安全であり、80°C での重大なシャットダウンは無効にできるという回答が得られました。
そこで、次のようなファイルを作成しました/etc/thermald/thermal-conf.xml
。
<?xml version="1.0"?>
<ThermalConfiguration>
<Platform>
<Name>Override AMBF critical trip point</Name>
<ProductName>*</ProductName>
<Preference>QUIET</Preference>
<ThermalZones>
<ThermalZone>
<Type>AMBF</Type>
<TripPoints>
<TripPoint>
<Temperature>95050</Temperature>
<type>critical</type>
</TripPoint>
<TripPoint>
<Temperature>80050</Temperature>
<type>hot</type>
</TripPoint>
</TripPoints>
</ThermalZone>
</ThermalZones>
</Platform>
</ThermalConfiguration>
hot
ここでは、当初設定されていた 80°C のレベルを設定しcritical
、安全ネットとしてcritical
95°C のレベルを維持することにしました。
最新のものもインストールしましthermald
たIntelのgithubリポジトリ
そこからテストを再実行し、実行のグラフを以下に示します。
ご覧のとおり、すべての温度は依然として適切に管理されており、AMBF
今では自由に 80°C を超えることができます。フル負荷時には約 92°C で安定し、実行が終了するとゆっくりと通常のレベルに戻ります。
問題は解決され、マシンは完全に動作するようになりました。