Linux タイムラッパーの結果から、この cp コマンドに何が起こったかわかりますか?

Question

このコンテキストの P は、このジョブが経過した合計時間に対する CPU 時間の比率を意味します。100% に近いということは、ほぼすべての時間が CPU 上で行われ、そのためこれらの実行では CPU が制限されていたことを意味します。他の何かが制限要因であった他の実行とは対照的です。I/O を多用するタスクではよくあることですが、システム時間よりもシステム時間 (つまりカーネル時間) の方が長くなります。

ワークロードが 6 GB のファイルをコピーすることであったことを考えると、11 秒間の実行で平均 0.5 GB を超える書き込みが 1 秒あたり行われたと推測できます。O 列は、毎回同じ数の書き込みが行われていることを示しており、これは単純な 1 つのファイルのコピープロセスと一致しています。

ただし、入力列には大きな変動があります。低速実行では、書き込みと読み取りがほぼ同数です。しかし、高速実行では読み取りは行われません。ファイルは、最後に読み取られたときから RAM にキャッシュされていると想定しています。DRAM は、ソリッドステートストレージよりもはるかに高速です。これは、メモリの負荷がかかって OS がキャッシュされたデータをドロップし、低速ストレージから再度読み取る必要があるまで、速度を大幅に向上させます。

これは 200 秒かかるタスクですが、場合によっては 12 秒かかることもあります。これは Linux ページキャッシュが原因と考えられます。

パフォーマンスの問題の根本原因を見つけるには、多くの場合、特定のメトリックセットを超えて、システム全体をより深く理解する必要があります。

使用されているファイルシステムは、リモートのネットワーク接続ストレージデバイスです。

コピーはネットワークストレージ経由で行われるため、リモートシステム上またはその間のネットワーク上のものもコピーの対象になる可能性があることに注意してください。リモートストレージのパフォーマンス。ネットワーク (おそらく IP) の速度と使用率。または、この VM のローカルで、ゲストがインフラストラクチャ上で実行されている他のすべてのものとリソースを競合している可能性もあります。

仕組みをもっと深く掘り下げることはいつでも可能です。ネットワークストレージ (NFS?) はまったく関係ありませんか、それともローカルディスクでも関係しますか? ユーザーの CPU 時間が 0.7 秒というのは、実際にはかなりの作業量です。多くのシステムコールを管理するには、どれくらいの時間がかかりますか? その大部分が低速のメモリと非常に低速のストレージを待機している場合、CPU ビジーとは実際には何を意味しますか? 答えるのは簡単な質問ではありませんが、適切に機能するようになったら、あまり深く掘り下げる必要はないかもしれません。

Answer 1