![У Wget возникли проблемы с сохранением нужных мне файлов - исключение каталогов, похоже, не работает](https://rvso.com/image/1452243/%D0%A3%20Wget%20%D0%B2%D0%BE%D0%B7%D0%BD%D0%B8%D0%BA%D0%BB%D0%B8%20%D0%BF%D1%80%D0%BE%D0%B1%D0%BB%D0%B5%D0%BC%D1%8B%20%D1%81%20%D1%81%D0%BE%D1%85%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC%20%D0%BD%D1%83%D0%B6%D0%BD%D1%8B%D1%85%20%D0%BC%D0%BD%D0%B5%20%D1%84%D0%B0%D0%B9%D0%BB%D0%BE%D0%B2%20-%20%D0%B8%D1%81%D0%BA%D0%BB%D1%8E%D1%87%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3%D0%BE%D0%B2%2C%20%D0%BF%D0%BE%D1%85%D0%BE%D0%B6%D0%B5%2C%20%D0%BD%D0%B5%20%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%D0%B5%D1%82.png)
Я хочу загрузить все государственные расходы свыше £500 Департаментом энергетики и изменения климата. Это файлы .xls и .xlsx, которые создаются раз в месяц. Они хранятся в таких местах:
https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/209425/20130627_April_2013_PUS_.xls
где номер после файла — уникальный номер, а имя файла не имеет никакой согласованности именования. Эти файлы связаны с отдельными ежемесячными страницами, которые имеют форму:
https:// www.gov.uk/government/publications/departmental-spend-over-500-april-2013
который в свою очередь ссылается на индексную страницу, которая:
https://www.gov.uk/government/collections/departmental-spend-over-500
Эта команда работает:
wget -r --force-html -e robots=off -A xls,xlsx,"" -l 2
https://www.gov.uk/government/collections/departmental-spend-over-500
но также как и файлы .xls и .xlsx я получаю полный каталог сайта .gov.uk (на глубину двух ссылок от того места, где я начал), который загружает ~100 МБ текстовых/html-файлов, кроме файлов .xls, что немного избыточно. Поэтому мой вопрос:
Как мне сделать так, чтобы wget использовал только источники из указанных выше каталогов или же исключить те, которые мне явно не нужны?
Я пробовал очевидные команды -I и -X, -D и т. д., но безуспешно. Обратите внимание, что мне пришлось включить "", а также файлы xls в ключ -A, иначе он бы игнорировал связанные файлы html...
Буду благодарен за любые советы! Кстати, это на Mac.
решение1
Ха! Наконец-то получилось. В include нужно включить полный путь для всех каталогов, но НЕ URL:
wget -r -A xls,xlsx,"" -l 2 -I /government/uploads/system/uploads/attachment_data/file/,/government/publications/,/government/collections/departmental-spend-over-500 https://www.gov.uk/government/collections/departmental-spend-over-500
Неочевидно, по крайней мере для меня...
(прокрутите вправо в поле кода, чтобы увидеть все)
Редактировать: На самом деле лучше — я выделил это здесь:
wget -r -A xls,xlsx,"" -l 2
-I /government/uploads/system/uploads/attachment_data/file/,
/government/publications/,
/government/collections/departmental-spend-over-500
https://www.gov.uk/government/collections/departmental-spend-over-500
Линия 1:рекурсивно, включить xls и xlsx и файлы, не имеющие расширений (- в данном случае файлы html...) и выполнить два уровня от указанного в строке 5
Строки 2-4:включить эти пути/каталоги из верхнего URL (т.е. исключить все остальное)
Строка 5:с чего начать