Sería genial enviar un archivo grande a AWS EC2

Sería genial enviar un archivo grande a AWS EC2

Fondo:

He luchado por instalar un servidor rstudio en AWS EC2 durante algún tiempo (desde noviembre). Ha sido como pelar las capas de una cebolla, siempre un obstáculo más. Para un usuario de Windows, la documentación en AWS que ellos mismos publican es terrible. Logré crear instancias de rstudio, pero experimenté problemas, estoy seguro de que hay respuestas fáciles, pero no tuve suerte en resolverlos y probé muchas cosas. Solo estoy intentando cargar un archivo en rstudio, leerlo y guardarlo en algún lugar. Al considerar leer un archivo primero, he tenido los siguientes problemas.

Leyendo en un archivo:

El botón de carga no aceptará archivos grandes. Para archivos pequeños esto funciona bien, pero cualquier cosa que requiera un servidor para analizar no funciona a través de este botón. También probé con cuatro navegadores diferentes para ver si se trataba de un problema del navegador, pero no lo fue. Sin embargo, los archivos pequeños funcionaron sin problemas (por ejemplo, 40 kb).

Poner archivos en Dropbox y luego sincronizarlos con rstudio no funcionó. La sincronización estuvo bien para archivos pequeños (por ejemplo, 200 kb), pero los archivos GB no aparecían o estaban dañados.

Intenté conectarme a través de Winscp y filezilla a través de PuTTY. Esto fue exitoso al ejecutar los comandos.

sudo chown -R ubuntu /home/rstudio

sudo chmod -R 755 /home/rstudio

y podría subirlo a rstudio. Lamentablemente, después de ese momento ya no pude acceder a las instancias. Pude acceder a ellos a través de AWS, pero luego no pude pasar por alto la pantalla de inicio de sesión de rstudio. Intenté esto muchas veces, reinicié y en muchas instancias diferentes. También contraté a un profesional independiente para que me ayudara y él ejecutó algunos otros comandos de los que guardé una copia para acceder a rstudio de la misma manera. Los archivos se pudieron cargar exitosamente (aunque muy lentamente), pero luego el acceso al inicio de sesión a través del navegador en la instancia ya no estaba disponible, por lo que efectivamente eliminó mis instancias (pude iniciar las instancias, pero no iniciar rstudio).

También probé código en PuTTY como

rsync -avz myHugeFile.csv [email protected]:

Pero puede ser que no supiera cómo colocar la ubicación de myHugeFile.csv en mi computadora (aunque intenté muchas cosas), pero no funcionó.

Logré cargarlo en una carpeta tmp en la unidad raíz EC2 de AW y luego puedo usar PuTTY para mover los archivos, pero cargar un archivo de 10 GB me tomó 36 horas. Creo que esto no es normal. Cuando llegan los archivos, son mucho más pequeños de lo que eran originalmente y estaban dañados.

Estoy usando la AMI de louis aslett en rstudio que obtienes si escribes rstudio en AMI comunitarias en la plataforma de Amazon cuando configuro mi instancia.

No es un problema de tamaño de instancia, ya que han tenido instancias grandes de 244 GB de RAM y principalmente las de 120 GB.

Si es posible cargar archivos grandes en Dropbox y tenerlos desde el servidor rstudio, sería genial (por el momento solo se sincronizan archivos pequeños). Alternativamente, poder utilizar el botón de carga. O prácticamente cualquier solución sería fantástica. He creado un depósito S3 porque tal vez sea más fácil de esta manera, sospecho que Amazon podría limitar la capacidad de cargar a EC2 a través de otras rutas. Pero eso me parece una locura.

Por favor, avíseme si tiene alguna idea sobre cómo hacer que cualquiera de estos pasos funcione.

Respuesta1

Ok, entonces me di cuenta de lo que estaba pasando aquí. El tamaño del directorio de inicio predeterminado para AWS es inferior a 8-10 GB, independientemente del tamaño de su instancia. Como al intentar subir a casa no había suficiente espacio. Un usuario experimentado de Linux no habría caído en esta trampa, pero es de esperar que cualquier otro usuario de Windows nuevo en esto que se encuentre con este problema lo vea. Si carga en una unidad diferente de la instancia, esto se puede resolver. Como la AMI de Louis Aslett Rstudio se basa en este espacio de 8 a 10 GB, tendrá que configurar su directorio de trabajo fuera de este, el directorio de inicio. No es intuitivamente evidente desde la interfaz del servidor Rstudio. Si bien este es un foro avanzado y este es un error de novato, espero que nadie borre esta pregunta, ya que pasé meses en esto y creo que alguien más también lo hará. Si alguien tiene una mejor manera de solucionar este problema, no dude en agregarla :)

información relacionada