Было бы здорово отправить большой файл в AWS EC2

Было бы здорово отправить большой файл в AWS EC2

Фон:

Я уже некоторое время (с ноября) пытаюсь установить сервер rstudio на AWS EC2. Это похоже на снятие слоев с луковицы, всегда очередное препятствие. Для пользователя Windows документация на AWS, которую они сами публикуют, ужасна. Мне удалось создать экземпляры rstudio, но возникли проблемы, на которые, я уверен, есть простые решения, но мне не удалось их решить, и я перепробовал много всего. Я просто пытаюсь загрузить файл в rstudio, прочитать его и сохранить где-нибудь. Рассматривая сначала чтение файла, у меня возникли следующие проблемы.

Чтение в файле:

Кнопка загрузки не принимает большие файлы. Для маленьких файлов это работает нормально, но все, что требует анализа сервером, не работает через эту кнопку. Я также пробовал через четыре разных браузера, чтобы проверить, не проблема ли это в браузере, но это не так. Маленькие файлы работали без проблем (например, 40k).

Помещение файлов в dropbox и последующая синхронизация с rstudio не сработали. Синхронизация прошла нормально для небольших файлов (например, 200kb), но файлы размером GB не отображались или были повреждены.

Я пробовал подключаться и через Winscp и через filezilla через putty. Это было успешно выполнено с помощью команд

sudo chown -R ubuntu /home/rstudio

sudo chmod -R 755 /home/rstudio

и я смог загрузить в rstudio. К сожалению, после этого я больше не мог получить доступ к экземплярам. Я мог получить к ним доступ через AWS, но тогда не мог обойти экран входа в rstudio. Я пробовал это много раз, перезапускал и на многих разных экземплярах. Я также нанял фрилансера, чтобы он мне помог, и он выполнил несколько других команд, копию которых я сохранил, чтобы получить доступ к rstudio таким же образом. Файлы успешно могли быть загружены (правда, очень медленно), но затем доступ к входу в экземпляр через браузер больше не был доступен, так что фактически это вывело мои экземпляры из строя (я мог запустить экземпляры, но не запустить rstudio).

Я также пробовал код в Putty, такой как

rsync -avz myHugeFile.csv [email protected]:

Но, возможно, я не знал, как указать местоположение myHugeFile.csv на моем компьютере (хотя я пробовал много вариантов), но это не сработало.

Мне удалось загрузить в папку tmp на корневом диске AWs EC2, а затем использовать putty для перемещения файлов, но загрузка файла размером 10 ГБ заняла 36 часов. Я думаю, это ненормально. Когда файлы приходят, они намного меньше, чем были изначально, и они были повреждены.

Я использую AMI от Луиса Аслетта на rstudio, который вы получаете, если вводите rstudio в разделе Community AMIs на платформе Amazon при настройке своего экземпляра.

Это не проблема размера экземпляра, так как у меня были большие экземпляры с 244 ГБ ОЗУ и в основном 120 ГБ.

Если бы можно было загружать большие файлы в dropbox и иметь их с сервера rstudio, это было бы здорово (на данный момент синхронизируются только небольшие файлы). В качестве альтернативы можно было бы использовать кнопку загрузки. Или практически любое решение было бы потрясающе. Я создал корзину S3, так как это может быть проще, я подозреваю, что Amazon может ограничить возможность загрузки в EC2 через другие маршруты. Но мне это кажется безумием.

Пожалуйста, дайте мне знать, если у вас есть какие-либо мысли по поводу того, как реализовать какой-либо из этих шагов.

решение1

Итак, я понял, что здесь происходит. Размер домашнего каталога по умолчанию для AWS составляет менее 8–10 ГБ независимо от размера вашего экземпляра. Поскольку это попытка загрузить в домашний каталог, то места недостаточно. Опытный пользователь Linux не попал бы в эту ловушку, но, надеюсь, другие пользователи Windows, впервые столкнувшиеся с этой проблемой, увидят это. Если вы загрузите на другой диск на экземпляре, то это можно решить. Поскольку Louis Aslett Rstudio AMI базируется на этом пространстве размером 8–10 ГБ, вам придется установить свой рабочий каталог за его пределами, в домашнем каталоге. Это не очевидно из интерфейса сервера Rstudio. Хотя это продвинутый форум, а это ошибка новичка, я надеюсь, что никто не удалит этот вопрос, так как я потратил на это месяцы, и я думаю, что кто-то другой тоже это сделает. Если у кого-то есть лучший способ обойти это, пожалуйста, не стесняйтесь добавлять его :)

Связанный контент