
Hintergrund:
Ich habe einige Zeit (seit November) damit gekämpft, einen Rstudio-Server auf AWS EC2 zu installieren. Es war wie das Abschälen der Zwiebelschichten, immer eine neue Hürde. Für einen Windows-Benutzer ist die Dokumentation zu AWS, die sie selbst veröffentlichen, schrecklich. Ich habe es geschafft, Rstudio-Instanzen zu erstellen, aber ich habe Probleme, für die es sicher einfache Antworten gibt, aber ich hatte kein Glück, sie zu lösen, und ich habe viele Dinge ausprobiert. Ich versuche gerade, eine Datei in Rstudio hochzuladen, sie zu lesen und sie irgendwo zu speichern. Wenn ich zuerst eine Datei einlese, habe ich die folgenden Probleme.
Einlesen einer Datei:
Der Upload-Button akzeptiert keine großen Dateien. Bei kleinen Dateien funktioniert es einwandfrei, aber alles, was einen Server zur Analyse benötigt, funktioniert über diesen Button nicht. Ich habe es auch über vier verschiedene Browser versucht, um zu sehen, ob es ein Browserproblem ist, aber das war nicht der Fall. Kleine Dateien funktionierten jedoch problemlos (z. B. 40 KB).
Das Ablegen von Dateien in Dropbox und anschließende Synchronisieren mit RStudio funktionierte nicht. Bei kleinen Dateien (z. B. 200 KB) funktionierte die Synchronisation problemlos, aber GB-Dateien wurden nicht angezeigt oder waren beschädigt.
Ich habe versucht, sowohl über Winscp als auch über Filezilla über Putty eine Verbindung herzustellen. Dies war erfolgreich, als ich die Befehle ausführte
sudo chown -R ubuntu /home/rstudio
sudo chmod -R 755 /home/rstudio
und ich konnte zu rstudio hochladen. Leider konnte ich danach nicht mehr auf die Instanzen zugreifen. Ich konnte über AWS auf sie zugreifen, konnte dann aber den Anmeldebildschirm von rstudio nicht umgehen. Ich habe dies viele Male versucht, neu gestartet und auf vielen verschiedenen Instanzen. Ich habe auch einen Freelancer eingestellt, der mir helfen sollte, und er hat einige andere Befehle ausgeführt, von denen ich eine Kopie aufbewahrt habe, um auf dieselbe Weise auf rstudio zuzugreifen. Dateien konnten erfolgreich hochgeladen werden (allerdings sehr langsam), aber dann war der Zugriff auf die Instanz über den Browser nicht mehr möglich, sodass meine Instanzen effektiv außer Gefecht gesetzt wurden (ich konnte die Instanzen starten, aber nicht rstudio).
Ich habe auch Code in Putty ausprobiert, wie zum Beispiel
rsync -avz myHugeFile.csv [email protected]
:
Aber es kann sein, dass ich nicht wusste, wie ich den Speicherort von myHugeFile.csv auf meinem Computer festlegen kann (ich habe jedoch vieles ausprobiert), aber es hat nicht funktioniert.
Ich habe es geschafft, in einen temporären Ordner auf dem EC2-Stammlaufwerk von AWS hochzuladen und kann die Dateien dann mit Putty verschieben, aber das Hochladen einer 10 GB großen Datei hat 36 Stunden gedauert. Ich denke, das ist nicht normal. Als die Dateien ankamen, waren sie viel kleiner als ursprünglich und sie waren beschädigt.
Ich verwende das AMI von Louis Aslett auf Rstudio, das Sie erhalten, wenn Sie beim Einrichten meiner Instanz „Rstudio“ unter „Community-AMIs“ auf der Amazon-Plattform eingeben.
Es liegt nicht an der Größe der Instanz, da ich hauptsächlich Instanzen mit 244 GB RAM und 120 GB hatte.
Wenn es möglich ist, große Dateien auf Dropbox hochzuladen und sie dann mit dem RStudio-Server zu haben, wäre das großartig (im Moment werden nur kleine Dateien synchronisiert). Alternativ könnte man auch die Upload-Schaltfläche verwenden. Oder so ziemlich jede andere Lösung wäre großartig. Ich habe einen S3-Bucket erstellt, da es auf diese Weise vielleicht einfacher ist. Ich vermute, dass Amazon die Möglichkeit, über andere Routen auf EC2 hochzuladen, einschränken könnte. Aber das scheint mir verrückt.
Bitte lassen Sie es mich wissen, wenn Sie Ideen haben, wie einer dieser Schritte funktionieren könnte.
Antwort1
Ok, also habe ich gemerkt, was hier los war. Die Standardgröße des Home-Verzeichnisses für AWS beträgt weniger als 8-10 GB, unabhängig von der Größe Ihrer Instanz. Als ich versuchte, ins Home-Verzeichnis hochzuladen, war nicht genug Platz vorhanden. Ein erfahrener Linux-Benutzer wäre nicht in diese Falle getappt, aber hoffentlich werden auch andere Windows-Benutzer, die neu hier sind und auf dieses Problem stoßen, dies erkennen. Wenn Sie auf ein anderes Laufwerk der Instanz hochladen, kann dies gelöst werden. Da das Louis Aslett Rstudio AMI in diesem 8-10 GB großen Speicherplatz basiert, müssen Sie Ihr Arbeitsverzeichnis außerhalb dieses Home-Verzeichnisses einrichten. Das ist aus der Rstudio-Serverschnittstelle nicht intuitiv ersichtlich. Obwohl dies ein fortgeschrittenes Forum ist und dies ein Anfängerfehler ist, hoffe ich, dass niemand diese Frage löscht, da ich Monate damit verbracht habe und ich denke, dass es jemand anderes auch tun wird. Wenn jemand eine bessere Möglichkeit hat, dies zu umgehen, können Sie sie gerne hinzufügen :)