iSCSI 経由で公開された HP LeftHand ストレージを備えた ESXi ボックスがあります。
1TB のディスクを搭載した仮想マシンがあり、そのうち 800GB が消費されています。ディスクは LeftHand ストレージでシック プロビジョニングされています。
VM 上でスナップショットが開かれ (Veeam Backup and Recovery が機能できるように)、約 6 時間開かれていました。この間に約 5 GB のデルタ ディスクが作成されました。
スナップショットの削除には 5 時間以上かかりましたが、まだ完了していません。ストレージ アレイは、そのアレイの IOPS が事実上ゼロ (約 600、バックグラウンド ノイズ)、スループットがゼロ (約 8MB/秒、これもバックグラウンド ノイズ)、平均キュー深度が 9 であると報告しています。
言い換えれば、スナップショットの統合プロセスはIOバウンドではないようで、スナップショットの削除がこんなに遅くなる原因は何も見当たりません。はデルタファイルを見ると動作しているようです。
この (比較的小さい) スナップショットの削除が非常に遅い理由について、他に検討すべき点はありますか?
によるとVMWare ドキュメントls -lh | grep -E "delta|flat|sesparse"
、今見ているのですが、変更されている 2 つのデルタ ファイルがあります。
-rw------- 1 root root 194.0M Jun 15 01:28 EXAMPLE-000001-delta.vmdk
-rw------- 1 root root 274.0M Jun 15 01:27 EXAMPLE-000002-delta.vmdk
1 つのスナップショット ファイルが統合されている間に、もう 1 つのスナップショット ファイルが統合プロセス中に差分を収集していると推測しています。その後、新しいスナップショット ファイルが統合され、そのプロセス中に別の差分が作成されます。
ファイルサイズは各反復 (まあ、ほとんどの反復) で削除されるため、最終的にはこの統合手順が完了すると思います (変更を生成せずにこれを完了するには、VM を 30 分間ネットワークから切断する必要があるかもしれません)。
統合には、差分 100 MB あたり約 2 分かかります。これは確かにこれまで一度も起こったことがありません。通常の Veeam バックアップでのスナップショットの削除には約 40 分かかります (したがって、確かに高速ではありませんが、これほど遅くもありません)。
6 時間 2 分後、スナップショットは最終的に削除されます。ただし、通常、この種の問題をトラブルシューティングする方法があるかどうか (ストレージ パフォーマンス以外) を知りたいです。
答え1
私の理解では、ESXI スナップショットの削除には長い時間がかかることがあります (通常は時間がかかります)。スナップショットを削除する前に、古いスナップショットの変更を次のスナップショットに順番に書き込む必要があります。このプロセスをできるだけ迅速かつ効率的に実行できるように、常に古いスナップショットから最新のスナップショットの順に削除するように教えられました。
当然、スナップショット間の変更が多いほど、マージにかかる時間は長くなります。