Dell Precision 3660 が過熱のためシャットダウンする

Dell Precision 3660 が過熱のためシャットダウンする

マシンの温度値を監視していると、負荷が高い状態で温度の 1 つが徐々に上昇し、最終的に からの緊急シャットダウンがトリガーされていることがわかりましたthermald

熱センサーの種類/sys/class/thermal/thermal_zone*/typeとそれに対応する温度については、/sys/class/thermal/thermal_zone*/temp

しかし、 によって返される値の定義はどこにも見つかりませんでした/sys/class/thermal/thermal_zone*/type。 たとえば のように、いくつかは説明がなくてもわかるように見えますTCPU。 しかし、私にとって問題なのはAMBFであり、それが何を指すのか全くわかりません。

AMBFこれが何の略なのか、また、さまざまな種類のサーマルゾーンに関するドキュメントがどこで見つかるのか知っている人はいますか?

編集:

問題が最初に発生してから多くの検索を行いましたが、次のような結果が得られました。

  • 私は熱センサーを監視し、次のグラフを作成しました 緊急停止までの機械への負荷時の温度(°C) CPUとメモリの温度は適切に管理されていることがわかります(CPU TCaseは100°Cなので、決して超えることはありません)。しかし、一方の温度はAMBF上昇し続け、80°Cの臨界値に達し、緊急シャットダウンを引き起こします。

  • ACPIテーブルを閲覧して、ようやくそれがAMBF何を意味するのかを見つけることができました。AMB and Near Fan Temperature (QE3)

  • 私は、そこでテストするという特別な目的のために Windows 10 OS をインストールしました。そして:

    1. エントリAMBFはACPIテーブルに表示されません(私が見る限り)
    2. この問題はWindowsでは発生しません。まったく同じテストを実行しても緊急シャットダウンは発生しません。
  • デルは最近、重要な顧客向けアドバイスを公開した。

(Dell Technologies 内部参照 ID – Dell Technologies ET004676)

このカスタマー アドバイザリは、モダン スタンバイからサーマル シャットダウンが発生する可能性がある特定の Optiplex および Precision システムに関する最近の発見についてお知らせするものです。Dell Technologies は、最適なシステム パフォーマンスを維持し、問題の発生を回避するために、最新の BIOS にすぐにアップグレードすることを推奨しています。

言うまでもなく、私はすでに最新の BIOS バージョンを使用していました。しかし、このカスタマー アドバイザリが、なぜ Windows で問題が起こらないのかを説明しているのではないかと思います...そこで、acpi_osi=! acpi_osi='Windows 2019'ブート コマンド ラインを使用して、ACPI の観点から Windows マシンを装いながら Linux システムを起動してみました。残念ながら、何も変わりませんでした。

とにかく、私はまだ同じ状況にあり、購入した目的のためにマシンを使用することができません。さらなるアイデアがあれば大歓迎です。

答え1

私の理解では、サーマルゾーンの名前はハードウェアによって定義されます。

たとえば、Intel PC マザーボード上の標準ゾーンの名前は次のようになります。x86_pkg_temp

Raspberry Pi の標準ゾーンの名前は次のとおりです。cpu-thermal

したがって、このようなことを確認するには、特定のハードウェアに必要なドライバー/モジュールのカーネル ソース コードを参照する必要がある可能性があります。

lm-sensorsパッケージをインストールし、その後 を実行するとうまくいくかもしれませんsudo sensors-detect

完了すると、検出されたセンサーに必要なカーネル モジュールが一覧表示されます。

実際、私は上記のことを実行したところ、次のような結果が出ました。

Intel digital thermal sensor...                             Success!
    (driver `coretemp')
Intel AMB FB-DIMM thermal sensor...                         No

AMBFゾーンが - を指していることはほぼ確実ですIntel AMB FB-DIMM thermal sensor。したがって、この場合、焼損しているのはメモリである可能性があります。

答え2

AMBF最終的に、Dell サポートから、センサーは無視しても安全であり、80°C での重大なシャットダウンは無効にできるという回答が得られました。

そこで、次のようなファイルを作成しました/etc/thermald/thermal-conf.xml

<?xml version="1.0"?>
<ThermalConfiguration>
  <Platform>
    <Name>Override AMBF critical trip point</Name>
    <ProductName>*</ProductName>
    <Preference>QUIET</Preference>
    <ThermalZones>
      <ThermalZone>
        <Type>AMBF</Type>
        <TripPoints>
          <TripPoint>
            <Temperature>95050</Temperature>
            <type>critical</type>
          </TripPoint>
          <TripPoint>
            <Temperature>80050</Temperature>
            <type>hot</type>
          </TripPoint>
        </TripPoints>
      </ThermalZone>
    </ThermalZones>
  </Platform>
</ThermalConfiguration>

hotここでは、当初設定されていた 80°C のレベルを設定しcritical、安全ネットとしてcritical95°C のレベルを維持することにしました。

最新のものもインストールしましthermaldIntelのgithubリポジトリ

そこからテストを再実行し、実行のグラフを以下に示します。

機械に負荷をかけている間の温度(℃)

ご覧のとおり、すべての温度は依然として適切に管理されており、AMBF今では自由に 80°C を超えることができます。フル負荷時には約 92°C で安定し、実行が終了するとゆっくりと通常のレベルに戻ります。

問題は解決され、マシンは完全に動作するようになりました。

関連情報