時々、Web サイトのディレクトリ構造だけを取得したいのですが、ファイル自体は重要ではありません。必要なのは名前だけです。すべてのエントリが空のダミー ファイルであるミラーのようなものです。
もちろん、 を実行しwget -r
てからスクリプトを実行してすべてのファイルを空にすることはうまく機能しますが、サーバーにも帯域幅にも良くないので無駄な気がします。より効率的ですが、さらに洗練されていない方法は、大きなファイルに到達するたびにプロセスを手動で停止して再起動するか、非常に短いタイムアウトを設定することです。少なくとも、ダウンロードする必要があるデータの量が大幅に削減されます。
私の質問は、wget でファイルの作成のみを行い、その内容をダウンロードしないようにすることはできますか? それとも、その作業に間違ったツールを使用しているのでしょうか?
答え1
リクエストに応じて回答を投稿します:
この--spider
オプションを使用します:
wget -r -nv --spider http://example.com
次に、出力からサイトの構造を解析できます。これにより、画像など、リンクを含む可能性のないファイルはダウンロードされなくなります。