Можно ли использовать wget для рекурсивной загрузки всех файлов, но не их фактического содержимого?

Можно ли использовать wget для рекурсивной загрузки всех файлов, но не их фактического содержимого?

Иногда я хочу получить только структуру каталогов веб-сайта, но сами файлы не важны. Мне нужно только их имя. Что-то вроде зеркала, где каждая запись — это просто пустой файл-пустышка.

Конечно, выполнение wget -rи последующий запуск скрипта для очистки всех файлов работает нормально, но это кажется расточительством, поскольку это нехорошо ни для сервера, ни для моей пропускной способности. Более эффективный, но еще менее элегантный способ — вручную останавливать и перезапускать процесс каждый раз, когда вы сталкиваетесь с большим файлом, или устанавливать очень короткий тайм-аут. По крайней мере, это значительно сокращает объем данных, которые мне нужно загрузить.

Мой вопрос: Могу ли я сделать так, чтобы wget только создал файл, но не скачивал его содержимое? Или я использую не тот инструмент для этой работы?

решение1

Публикую ответ по запросу:

Используйте --spiderопцию:

wget -r -nv --spider http://example.com

Затем вы можете проанализировать структуру сайта из выходных данных. Это не позволит загружать файлы, которые не имеют шансов содержать ссылки, например, изображения.

Связанный контент