コメントに対する追加情報

Question 1

この場合の「ブロック」は、hung_task_timeout_secsタスクが長い間 D 割り込み不可の状態であったことを意味します。120 秒というのは、I/O を実行するにはかなり異常な時間です。

このホストからメトリックを取得できる監視を開始します。ネットデータはこれに適しています。メモリに毎秒大量のデータが収集されるため、ディスク I/O はそれほど発生しません。また、グラフもきれいです。

などのディスクレイテンシを確認しますiostat -xz 1。1 桁のミリ秒を超える待機時間は適切ではありません。そのストレージが何であるか (スピンドル、ソリッドステート、SAN LUN) を共有します。

スピニングとピンニングに関しては、スケジューラを強制的にスターブさせているのではないかと思います。問題の CPU モデルと、どのコアを何のためにピンニングしているのかを教えてください。どのようにLockSupport.parkNanos()実装されていますか?

レビューvmstat 1。多くのタスクが常に実行中r または中断できないb状態にあるのは良くありません。

BPF をインストールし、スクリプトを使用してタスク診断を収集することを検討してください。runqslower特定のしきい値を超える待機中のタスクを表示します。非常に高速であることが理想的です。しきい値の単位はマイクロ秒であることに注意してください。

少し立ち止まって、このもののデザインについて考えてみましょう。

レイテンシ目標は正確には何で、何をどのくらいの速さで実行するのでしょうか?

postgres が同じホスト上で実行されている理由はありますか? リモートで TCP 経由でアクセスする場合、その I/O は JVM アプリケーションにとって問題にはなりません。

Answer

この場合の「ブロック」は、hung_task_timeout_secsタスクが長い間 D 割り込み不可の状態であったことを意味します。120 秒というのは、I/O を実行するにはかなり異常な時間です。

このホストからメトリックを取得できる監視を開始します。ネットデータはこれに適しています。メモリに毎秒大量のデータが収集されるため、ディスク I/O はそれほど発生しません。また、グラフもきれいです。

などのディスクレイテンシを確認しますiostat -xz 1。1 桁のミリ秒を超える待機時間は適切ではありません。そのストレージが何であるか (スピンドル、ソリッドステート、SAN LUN) を共有します。

スピニングとピンニングに関しては、スケジューラを強制的にスターブさせているのではないかと思います。問題の CPU モデルと、どのコアを何のためにピンニングしているのかを教えてください。どのようにLockSupport.parkNanos()実装されていますか?

レビューvmstat 1。多くのタスクが常に実行中r または中断できないb状態にあるのは良くありません。

BPF をインストールし、スクリプトを使用してタスク診断を収集することを検討してください。runqslower特定のしきい値を超える待機中のタスクを表示します。非常に高速であることが理想的です。しきい値の単位はマイクロ秒であることに注意してください。

少し立ち止まって、このもののデザインについて考えてみましょう。

レイテンシ目標は正確には何で、何をどのくらいの速さで実行するのでしょうか?

postgres が同じホスト上で実行されている理由はありますか? リモートで TCP 経由でアクセスする場合、その I/O は JVM アプリケーションにとって問題にはなりません。

Question 2

結局のところ、問題は非常に単純でした。テストコードにこの 1 つの要素が欠けていたため、分離されたテストではマシンをクラッシュさせることが一度もありませんでした。問題は共有メモリやコアピンニング自体にはありません。コアを分離すると、利用可能な共有リソースがわずかに減少し、スケジューラが飢餓状態になる可能性があるというだけです。

両方のJVMは、リアルタイム優先度を使用して設定されました。

sudo renice -n -20 $!
sudo chrt -r -a -p 99 $!

JVM 全体がバンプされたため、合計で約 300 スレッドが最大優先度になりました。CPU 使用率が比較的低い場合でも、コンテキストスイッチングは 150,000/秒を超えました。

我々は niceness を残し、リアルタイムの変更を削除しました。これで問題は解決したようです。従来の RT 設定の本来の目的は、busyspin/pinning/c-states/p-states などの方法を変更することで達成できます。

Answer

結局のところ、問題は非常に単純でした。テストコードにこの 1 つの要素が欠けていたため、分離されたテストではマシンをクラッシュさせることが一度もありませんでした。問題は共有メモリやコアピンニング自体にはありません。コアを分離すると、利用可能な共有リソースがわずかに減少し、スケジューラが飢餓状態になる可能性があるというだけです。

両方のJVMは、リアルタイム優先度を使用して設定されました。

sudo renice -n -20 $!
sudo chrt -r -a -p 99 $!

JVM 全体がバンプされたため、合計で約 300 スレッドが最大優先度になりました。CPU 使用率が比較的低い場合でも、コンテキストスイッチングは 150,000/秒を超えました。

我々は niceness を残し、リアルタイムの変更を削除しました。これで問題は解決したようです。従来の RT 設定の本来の目的は、busyspin/pinning/c-states/p-states などの方法を変更することで達成できます。

コメントに対する追加情報

コメントに対する追加情報

答え1

答え2

関連情報