Nuestros clientes tienen recursos compartidos de archivos de Windows donde almacenan muchos documentos diferentes.
Queremos ingerir archivos que coincidan con patrones comodín (p. ej. *.pdf
, *.xlsx
, etc.) de esos archivos compartidos en depósitos de S3 con el fin de crear un lago de datos.
Estamos considerando varias alternativas, pero creemos que algunas personas podrían tener mejores ideas sobre cómo hacer esto:
Ejecute el software del agente en los servidores de archivos de Windows de los clientes.
1.a. Escriba un script de PowerShell que solicite
rclone
copiar archivos nuevos/modificados/eliminados a S3 y llame a una API HTTP de informes para informarnos si tuvo éxito o falló, y programe ese script para que se ejecute periódicamente utilizando el programador de tareas.1.b. Haz lo mismo, pero usando
aws s3 sync
fromaws-cli
.1.c. Homeroll nuestro propio cargador basado en Facebook Watchman o una solución de visualización de archivos similar.
Configure un servidor SFTP o WebDAV en el servidor de archivos del cliente y ejecútelo
rclone
desde una instancia EC2 que administramos.
Queremos saber si no existe otra tecnología más simple que podamos utilizar. ¿Amazon FSx podría ayudar de alguna manera? ¿Le gustaría algún tipo de mecanismo de replicación automática para reflejar los archivos compartidos de nuestros clientes en los sistemas de archivos de Windows de Amazon FSx?
O tal vez, ¿existe algún otro tipo de solución para "hacer funcionar su propio Dropbox utilizando un backend de Amazon S3"?
Respuesta1
Podrías usar Cloudberry Backup, es una aplicación de sincronización unidireccional. Instálelo en Windows Server, agregue la cuenta S3, configure la ruta del archivo local con el filtro de formato de archivo y el destino a su depósito S3. Esta aplicación contiene un programador autónomo y se puede ejecutar automáticamente. Hasta ahora esta es la solución que estoy usando. La CLI de AWS u otra aplicación de código abierto como FreeFileSync no pueden cumplir con mis requisitos, ya que estas aplicaciones necesitan verificar ambos lados antes de la sincronización, con los archivos enormes creciendo, esto causó un problema. Pero en el camino de sincronización se resuelve esto, solo mantengo los archivos más recientes en el servidor de Windows.