
WGET を使用して Web サイトをダウンロードしました。ダウンロードしてリンクを変換した後、特定のリソースを取得できません。
たとえば、 で保存された CSS ファイルはindex.min.css?update=2
読み込まれません。ただし、リンクを新しいタブで開き、リンクを に変更するとindex.min.css%3fupdate=2
、ファイルは読み込まれます。
多くのファイルがこのようなパターンで保存されています。この問題を解決するにはどうすればよいでしょうか?
答え1
ウェブサイトのダウンロードが完璧になることはほとんどありません。多くの場合、その後に手動で修正する必要があります。
よくある問題に対するアドバイス:
wget 呼び出しでは、パラメータ
--adjust-extension
とを使用する必要があります--convert-links
。 このオプション--adjust-extension
により、wget は PHP ファイルを.html
拡張子付きで保存し、--convert-links
wget はダウンロードしたファイル内のリンクを新しく作成された.html
ファイルに変換します (ただし、すべてのファイルがダウンロードされた後のみ)。ファイル名に特殊文字が含まれている場合は、
--restrict-file-names=nocontrol
または を使用できます--restrict-file-names=ascii
。wget が文字エンコーディングを間違えた場合は、
--remote-encoding
を のように指定することができます--remote-encoding=utf-8
。
(このリストは決して網羅的なものではなく、あなたの問題には当てはまらないかもしれません。)