Seria ótimo enviar um arquivo grande para AWS EC2

Seria ótimo enviar um arquivo grande para AWS EC2

Fundo:

Tenho lutado para instalar um servidor rstudio no AWS EC2 há algum tempo (desde novembro). Tem sido como descascar as camadas de uma cebola, sempre outro obstáculo. Para um usuário do Windows, a documentação da AWS que eles próprios publicam é terrível. Consegui criar instâncias do rstudio, mas tive problemas para os quais tenho certeza de que há respostas fáceis, mas não tive sorte em resolvê-los e tentei muitas coisas. Estou apenas tentando fazer upload de um arquivo para o rstudio, lê-lo e salvá-lo em algum lugar. Considerando primeiro a leitura de um arquivo, tive os seguintes problemas.

Lendo em um arquivo:

O botão de upload não aceita arquivos grandes. Para arquivos pequenos isso funciona bem, mas qualquer coisa que exija a análise de um servidor não funciona por meio deste botão. Também tentei em quatro navegadores diferentes para ver se era um problema de navegador, mas não foi. Arquivos pequenos funcionaram sem problemas (por exemplo, 40kb).

Colocar arquivos no dropbox e depois sincronizar com o rstudio não funcionou. A sincronização funcionou bem para arquivos pequenos (por exemplo, 200kb), mas os arquivos GB não apareciam ou ficavam corrompidos.

Tentei conectar via Winscp e filezilla através do putty. Isso foi bem-sucedido ao executar os comandos

sudo chown -R ubuntu /home/rstudio

sudo chmod -R 755 /home/rstudio

e eu poderia fazer upload para o rstudio. Infelizmente, depois desse ponto, não consegui mais acessar as instâncias. Consegui acessá-los via AWS, mas não consegui passar pela tela de login do rstudio. Eu tentei isso muitas vezes, reiniciei e em muitas instâncias diferentes. Também contratei um freelancer para me ajudar e ele executou alguns outros comandos dos quais guardei uma cópia para acessar o rstudio da mesma forma. Os arquivos puderam ser carregados com sucesso (embora muito lentamente), mas o acesso ao login através do navegador para a instância não estava mais disponível, de forma tão eficaz que retirou minhas instâncias (eu poderia iniciar as instâncias, mas não iniciar o rstudio).

Eu também tentei código em PuTTY, como

rsync -avz myHugeFile.csv [email protected]:

Mas pode ser que eu não soubesse como colocar a localização de myHugeFile.csv no meu computador (embora tentei muitas coisas), mas não funcionou.

Consegui fazer upload para uma pasta tmp na unidade raiz EC2 do AWs e posso usar o PuTTY para mover os arquivos, mas o upload de um arquivo de 10 GB levou 36 horas. Acho que isso não é normal. Quando os arquivos chegam, eles são muito menores do que eram originalmente e foram corrompidos.

Estou usando a AMI de louis aslett no rstudio que você obtém se digitar rstudio em AMIs da comunidade na plataforma amazon quando configuro minha instância.

Não é um problema de tamanho de instância, já que tivemos instâncias grandes de 244 GB de RAM e principalmente de 120 GB.

Se for possível fazer upload de arquivos grandes para o dropbox e tê-los desde o servidor rstudio, isso seria ótimo (no momento apenas arquivos pequenos são sincronizados). Alternativamente, poder usar o botão de upload. Ou praticamente qualquer solução seria incrível. Eu criei um bucket S3, pois talvez seja mais fácil assim. Suspeito que a Amazon possa limitar a capacidade de fazer upload para o EC2 por meio de outras rotas. Mas isso parece loucura para mim.

Por favor, deixe-me saber se você tem alguma ideia sobre como fazer qualquer uma dessas etapas funcionar.

Responder1

Ok, então eu percebi o que estava acontecendo aqui. O tamanho do diretório inicial padrão para AWS é inferior a 8-10 GB, independentemente do tamanho da sua instância. Como tentar fazer o upload para casa, não havia espaço suficiente. Um usuário Linux experiente não teria caído nessa armadilha, mas espero que qualquer outro usuário do Windows novo nisso que se depare com esse problema veja isso. Se você fizer upload para uma unidade diferente na instância, isso poderá ser resolvido. Como o Louis Aslett Rstudio AMI é baseado neste espaço de 8 a 10 GB, você terá que definir seu diretório de trabalho fora deste, o diretório inicial. Não é intuitivamente aparente na interface do servidor Rstudio. Embora este seja um fórum avançado e seja um erro de iniciante, espero que ninguém exclua essa pergunta, pois passei meses nisso e acho que outra pessoa também o fará. Se alguém tiver uma maneira melhor de contornar isso, sinta-se à vontade para adicioná-la :)

informação relacionada