大きなファイルをAWS EC2に送信すると便利です

大きなファイルをAWS EC2に送信すると便利です

背景:

私はしばらくの間 (11 月以来)、AWS EC2 に rstudio サーバーをインストールするために奮闘してきました。それはまるでタマネギの皮をむくようなもので、常に別のハードルがあります。Windows ユーザーにとって、AWS が投稿しているドキュメントはひどいものです。私はなんとか rstudio インスタンスを作成しましたが、問題が発生しました。簡単な答えがあるはずですが、解決できず、さまざまなことを試しました。私は、rstudio にファイルをアップロードし、それを読み取ってどこかに保存しようとしているだけです。最初にファイルを読み込むことを考えると、次の問題が発生しました。

ファイルの読み込み:

アップロード ボタンは大きなファイルを受け付けません。小さなファイルの場合は問題なく機能しますが、サーバーによる分析を必要とするものは、このボタンでは機能しません。また、ブラウザーの問題かどうかを確認するために 4 つの異なるブラウザーで試しましたが、問題はありませんでした。ただし、小さなファイル (例: 40kb) は問題なく機能しました。

ファイルを Dropbox に入れてから rstudio と同期しても機能しませんでした。小さなファイル (例: 200kb) の場合は同期は正常に行われましたが、GB ファイルは表示されないか、破損していました。

WinscpとFileZillaの両方をPuTTY経由で接続しようとしました。コマンドを実行すると成功しました。

sudo chown -R ubuntu /home/rstudio

sudo chmod -R 755 /home/rstudio

そして、rstudio にアップロードできました。残念ながら、その時点以降、インスタンスにアクセスできなくなりました。AWS 経由でアクセスすることはできましたが、rstudio ログイン画面をバイパスできなくなりました。これを何度も試し、再起動し、さまざまなインスタンスで試しました。また、フリーランサーを雇って手伝ってもらい、同じ方法で rstudio にアクセスするために、コピーを保存しておいた他のコマンドも実行しました。ファイルのアップロードは成功しましたが (非常に遅いですが)、その後、ブラウザ経由でインスタンスにログインできなくなり、事実上インスタンスが削除されました (インスタンスは起動できましたが、rstudio は起動できませんでした)。

私はまた、次のようなコードをPuTTYで試しました。

rsync -avz myHugeFile.csv [email protected]:

しかし、myHugeFile.csv の場所をコンピューター上に置く方法がわからなかったのかもしれません (いろいろ試しましたが)、うまくいきませんでした。

AWS の EC2 ルート ドライブの tmp フォルダにアップロードし、その後 putty を使用してファイルを移動できましたが、10 GB のファイルのアップロードに 36 時間かかりました。これは正常ではないと思います。ファイルが到着すると、元のサイズよりもずっと小さくなり、破損していました。

私は、インスタンスをセットアップするときに Amazon プラットフォームのコミュニティ AMI で rstudio と入力すると取得できる、rstudio 上の louis aslett の AMI を使用しています。

244GB の RAM を搭載した大規模なインスタンスや 120GB のインスタンスがほとんどであったため、これはインスタンスのサイズの問題ではありません。

大きなファイルを Dropbox にアップロードして、rstudio サーバーで使用できるとしたら、それは素晴らしいことです (現時点では小さなファイルのみが同期されます)。または、アップロード ボタンを使用できるようにします。または、ほとんどすべてのソリューションが素晴らしいでしょう。この方法の方が簡単かもしれないので、S3 バケットを作成しました。Amazon が他のルート経由で EC2 にアップロードする機能を制限する可能性があると思います。しかし、それはおかしいと思います。

これらの手順のいずれかを実行することについてご意見がありましたら、ぜひお知らせください。

答え1

それで、何が起こっているのかわかりました。AWS のデフォルトのホーム ディレクトリ サイズは、インスタンスのサイズに関係なく 8 ~ 10 GB 未満です。ホームにアップロードしようとしたので、十分なスペースがありませんでした。経験豊富な Linux ユーザーであれば、この罠に陥ることはなかったでしょうが、この問題に遭遇した他の Windows ユーザーがこれを理解してくれることを願っています。インスタンス上の別のドライブにアップロードすれば、この問題を解決できます。Louis Aslett Rstudio AMI はこの 8 ~ 10 GB のスペースに基づいているため、作業ディレクトリをこの外、つまりホーム ディレクトリに設定する必要があります。Rstudio サーバー インターフェイスからは直感的にわかりません。これは高度なフォーラムであり、これは初心者のエラーですが、この質問を削除する人がいないことを願っています。私はこれに何ヶ月も費やしており、他の誰かが削除すると思います。これを回避するより良い方法をお持ちの方がいらっしゃいましたら、遠慮なく追加してください :)

関連情報