Wget を使用して Web サイトの完全なローカルコピーを作成する

Question 1

まず、これは OS X のみの問題のようです。上記のコマンドは Ubuntu 14.04 LTS でも使用でき、すぐに動作します。いくつか提案があります:

.cssファイルや画像などは、少なくとも私が実行したままにしていたレベルまではダウンロードされていないようです（プロセスが完了したらダウンロードされるかもしれないので、この部分はスキップします）

と言う場合--domains wikispaces.com、他のドメインにあるリンクされた CSS ファイルをダウンロードするわけではありません。その Web サイトのスタイルシートの一部は、http://c1.wikicdn.comのソースが示すようににありますindex.html。
一部のウェブサイトでは、リンクを使用してリンクされたファイル（参照画像）に直接アクセスすることはできません（このページ）。ウェブサイトからのみ閲覧できます。ただし、ここではそうではないようです。
Wget は HTML を解析する際にコメントを認識しないようです。Wget の実行中に次のメッセージが表示されます。
```
--2016-07-01 04:01:12--  http://chessprogramming.wikispaces.com/%3C%25-%20ws.context.user.imageUrlPrefix%20%25%3Elg.jpg
Reusing existing connection to chessprogramming.wikispaces.com:80.
HTTP request sent, awaiting response... 404 Not Found
2016-07-01 04:01:14 ERROR 404: Not Found.
```
ブラウザでリンクを開くと、ログインページが表示されます。ファイル名から、コメントのどこかに記述されていることがわかります。
多くのサイトでは、ダウンロードマネージャーを使用したダウンロードは許可されていないため、どのクライアントが HTTP 要求を発信したか (ブラウザーや、サーバーからファイルを要求するために使用したクライアントなど) が確認されます。

クライアントを偽装し、ブラウザのふりをするために使用します-U somebrowser。たとえば、-U mozillaMozilla/Firefox がページを要求していることをサーバーに伝えるためにを追加できます。ただし、この引数がなくてもサイトをダウンロードできるため、ここでは問題ではありません。
ダウンロードとリクエストの速度は重要です。サーバーは、サイトからデータをリクエストするロボットによってパフォーマンスが悪化することを望んでいません。Wgetの--limit-rate=および--wait=引数を使用してダウンロード速度を制限し、個々のファイルに対する get リクエストの生成の間に数秒待機します。

例えば
```
wget -r --wait=5 --limit-rate=100K <other arguments>
```
取得リクエスト間で 5 秒間待機し、ダウンロード速度を 100Kbps に制限します。繰り返しますが、サーバーは Web サイトを取得するためにダウンロード速度を制限することを要求しなかったため、これはここでは問題ではありません。

ここで最も可能性が高いのは (1) です。--domains wikispaces.comをに置き換えて--domains *、もう一度試してください。どうなるか見てみましょう。少なくとも CSS ファイルを取得できるはずです。

HTML拡張子は追加されません

コマンドを実行すると HTML 拡張子が追加されます。

リンクは変換されません

ここで私が完全に正しいとは思いませんが、サイトをミラーリングするときにリンクがすぐに機能するとは思わないでください。

HTTP getリクエストに引数を渡すと（たとえば、http://chessprogramming.wikispaces.com/wiki/xmla?v=rss_2_0引数v=rss_2_0）、リクエストはサーバー上で実行されているスクリプト（たとえばPHP）によって処理されます。引数は、引数に応じてスクリプトの正しいバージョンを取得するのに役立ちます。サイトをミラーリングする場合、特にPHPで実行されるWikiの場合は、正確には鏡元のPHPスクリプトを取得しない限り、サイトはPHPスクリプトによって返されるHTMLページではありません。PHPスクリプトによって返されるHTMLページは、そのスクリプトで表示されるページの1つの側面にすぎません。生成するページはサーバー上に保存され、元の PHP ファイルを取得した場合のみ正しくミラーリングされますが、これは HTTP では実行できません。そのためには、サーバーへの FTP アクセスが必要です。

お役に立てれば。

Answer