우리 고객은 다양한 문서를 저장하는 Windows 파일 공유를 보유하고 있습니다.
우리는 데이터 레이크 구축을 위해 해당 파일 공유에서 와일드카드 패턴(예 *.pdf
: , 등) 과 일치하는 파일을 S3 버킷으로 수집하려고 합니다 .*.xlsx
우리는 다양한 대안을 고려하고 있지만, 이를 수행하는 방법에 대해 더 나은 아이디어를 갖고 있는 사람들이 있을 것이라고 생각합니다.
클라이언트의 Windows 파일 서버에서 에이전트 소프트웨어를 실행합니다.
1.a. 새 파일/수정/삭제된 파일을 S3에 복사하도록 호출하는 PowerShell 스크립트를 작성하고
rclone
보고 HTTP API를 호출하여 성공 또는 실패 여부를 알려주고 작업 스케줄러를 사용하여 해당 스크립트가 주기적으로 실행되도록 예약합니다.1.b. 동일한 작업을 수행하되
aws s3 sync
from 을 사용합니다aws-cli
.1.c. Facebook Watchman 또는 유사한 파일 감시 솔루션을 기반으로 자체 업로더를 홈롤하세요.
클라이언트 파일 서버에 SFTP 또는 WebDAV 서버를 설정하고
rclone
우리가 관리하는 EC2 인스턴스에서 실행하세요.
우리가 사용할 수 있는 다른 더 간단한 기술이 없는지 알고 싶습니다. Amazon FSx가 어떻게든 도움이 될 수 있을까요? Amazon FSx Windows 파일 시스템에서 클라이언트 파일 공유를 미러링하기 위한 일종의 자동 복제 메커니즘처럼요?
아니면 다른 종류의 "Amazon S3 백엔드를 사용하여 Dropbox를 직접 운영하는" 솔루션이 있을까요?
답변1
단방향 동기화 앱인 Cloudberry Backup을 사용할 수 있습니다. Windows Server에 설치하고, S3 계정을 추가하고, 파일 형식 필터를 사용하여 로컬 파일 경로와 S3 버킷에 대한 대상을 구성합니다. 이 앱에는 자체 스케줄러가 포함되어 있어 자동으로 실행될 수 있습니다. 지금까지 이것이 사용중인 솔루션입니다. AWS CLI 또는 FreeFileSync와 같은 기타 오픈 소스 앱은 내 요구 사항을 충족할 수 없습니다. 이러한 앱은 동기화하기 전에 양쪽을 모두 확인해야 하고 파일이 커지면서 문제가 발생했기 때문입니다. 하지만 동기화를 통해 이 문제를 해결하는 동안 Windows 서버에 최신 파일을 보관합니다.