私は、2 つの言語があり、各言語のページが重複している (と気付いた) サイトで wget を実行しています。すでに英語のコンテンツを持っているので、wget がこれ以上ダウンロードしないようにしたいと思います。実行時に -k スイッチを指定しましたが、wget がすべてのダウンロードを完了する前に停止した場合、リンクは通常どおり相対リンクに変換されますか? それとも、単に停止するだけですか?
(StackExchangeネットワークには、wgetに既にダウンロードされたコンテンツのリンクを変換させる方法についての別の質問があります。
wget -nc -k [previous options] [previous url]
ただし、タイムスタンプが誤ってオフになっているため、このオプションは使用できません。
答え1
いいえ。
-k オプションはダウンロードが完了するまで適用されません。
wget がキャンセルされた場合 (つまり、ctrl+c)、-k オプションは呼び出されません。
wget が完了すると、最後のステップはリンクの変換であることがわかります。
最後に、変換された .html ファイルの数が表示されます。このプロセス中に、ファイルのタイムスタンプも更新されます。
アップデート: -R オプションを使用して、異なる言語のファイルを除外してみてください。ただし、これは、ファイルに均一に一意となる要素がある場合にのみ機能します。
たとえば次のように試してください:
-R*_en*.htm*
こうすると、.htmまたは.htmlで終わるファイルやパスのどこかに_enが含まれるファイルが除外されます。私はアンダースコアか何かを使ってバッファ「en」の部分を削除します。単に「en」を含むファイルを除外したくないためです。
ただし、これはファイル名に一貫性がある場合にのみ機能します。