NFS 和 GFS2 效能緩慢

Question 1

我只能提供一些一般性的指導。

首先，我將啟動並運行一些簡單的基準指標。至少這樣你就會知道你所做的改變是否是最好的。

穆寧
仙人掌
納吉奧斯

是一些不錯的選擇。

這些節點是虛擬伺服器還是實體伺服器，它們的規格是什麼。

每個節點之間的網路連接是什麼樣的

NFS 是否設定在您的託管供應商專用網路上。

您沒有使用防火牆限制資料包/端口，您的託管提供者是否這樣做？

Answer

我只能提供一些一般性的指導。

首先，我將啟動並運行一些簡單的基準指標。至少這樣你就會知道你所做的改變是否是最好的。

穆寧
仙人掌
納吉奧斯

是一些不錯的選擇。

這些節點是虛擬伺服器還是實體伺服器，它們的規格是什麼。

每個節點之間的網路連接是什麼樣的

NFS 是否設定在您的託管供應商專用網路上。

您沒有使用防火牆限制資料包/端口，您的託管提供者是否這樣做？

Question 2

我認為你有兩個問題。首先是瓶頸導致了這個問題，更重要的是，GFS 的故障處理能力差。 GFS 確實應該減慢傳輸速度，直到它起作用，但我無法提供幫助。

您說叢集將大約 200GB 的新檔案處理到 NFS 中。從集群中讀取了多少資料？

我總是對前端和後端有一個網路連接感到緊張，因為它允許前端「直接」破壞後端（透過超載數據連接）。

如果您在每個機器上安裝 iperf，則可以測試任何給定點的可用網路吞吐量。這可能是識別是否存在網路瓶頸的快速方法。

網路使用率如何？儲存伺服器上的磁碟速度有多快以及您使用什麼 raid 設定？您能獲得多少吞吐量？假設它正在運行 *nix 並且您有安靜的時間來測試，您可以使用 hdparm

$ hdpard -tT /dev/<device>

如果您發現網路使用率很高，我建議將 GFS 放在輔助專用網路連線上。

根據您對 12 個磁碟進行 raid(ed) 的方式，您可能會獲得不同程度的效能，這可能是第二個瓶頸。它還取決於您使用的是硬體 raid 還是軟體 raid。

如果所要求的資料分佈在超過您的總記憶體（聽起來可能是這樣）的情況下，那麼您在盒子上擁有的大量記憶體可能沒有什麼用處。此外，記憶體只能幫助讀取，而且大多數情況下，如果大量讀取針對相同檔案（否則，它將被從快取中踢出）

運行top/htop時，觀察iowait。這裡的高值是一個很好的指標，表明 cpu 只是在等待某些東西（網路、磁碟等）

在我看來，NFS 不太可能是罪魁禍首。我們在 NFS 方面擁有相當豐富的經驗，雖然它可以調整/優化 - 它趨於工作相當可靠。

我傾向於讓 GFS 元件穩定，然後看看 NFS 的問題是否消失。

最後，OCFS2 可能是替代 GFS 的選項。當我對分散式檔案系統進行一些研究時，我做了相當多的研究，但我不記得我選擇嘗試 OCFS2 的原因 - 但我做到了。也許這與 Oracle 將 OCFS2 用於其資料庫後端有關，這意味著相當高的穩定性要求。

穆寧是你的朋友。但更重要的是 top / htop。 vmstat 還可以為您提供一些關鍵數字

$ vmstat 1

您每秒都會收到有關係統正在花時間做什麼的更新資訊。

祝你好運！

Answer