我們的客戶擁有 Windows 檔案共享,其中儲存了大量不同的文件。
我們希望將這些檔案共用中匹配通配符模式(例如*.pdf
、*.xlsx
等)的檔案提取到 S3 儲存桶中,以建立資料湖。
我們正在考慮一系列替代方案,但我們覺得有些人可能有更好的想法如何做到這一點:
在客戶端的 Windows 檔案伺服器上執行代理軟體。
1.a.編寫一個 PowerShell 腳本,呼叫
rclone
將新的/修改的/刪除的檔案複製到 S3 並呼叫報告 HTTP API 讓我們知道它是成功還是失敗,並使用任務計劃程序安排該腳本定期運行。1.b.做同樣的事情,但要使用
aws s3 sync
fromaws-cli
。1.c. Homeroll 我們自己的基於 Facebook Watchman 或類似文件監視解決方案的上傳器。
在客戶端檔案伺服器上設定 SFTP 或 WebDAV 伺服器並執行
rclone
從我們管理的 EC2 執行個體執行。
我們想知道是否沒有其他更簡單的技術可以使用。 Amazon FSx 能以某種方式提供幫助嗎?喜歡某種自動複製機制來在 Amazon FSx Windows 檔案系統上鏡像我們的客戶端檔案共享嗎?
或者,是否有其他類型的「使用 Amazon S3 後端推出您自己的 Dropbox」解決方案?
答案1
您可以使用 Cloudberry Backup,它是一個單向同步應用程式。將其安裝在 Windows Server 上,新增 S3 帳戶,使用檔案格式過濾器設定本機檔案路徑以及 S3 儲存桶的目標。這個應用程式自帶調度程序,它可以自動運行。到目前為止,這是正在使用的解決方案。 AWS CLI或其他開源應用程式(例如FreeFileSync)無法滿足我的要求,因為這些應用程式需要在同步之前檢查雙方,隨著龐大的檔案不斷增長,這導致了問題。但在同步方式解決這個問題時,我只是將最新的檔案保留在 Windows 伺服器上。