Использование Wget для загрузки файлов с определенным именем с сайта

Использование Wget для загрузки файлов с определенным именем с сайта

Какой был бы наилучший способ просмотреть домен (полу)верхнего уровня и все его подпапки на предмет вхождений определенных комбинаций цифр и букв?

У меня есть несколько папок с большими списками изображений, и мне нужно получить только те, в которых встречаются определенные числа. Например: 282 или 191

Бонусные баллы, если вы сможете мне сказать, как отфильтровать минимальный размер, чтобы мне не приходилось загружать миниатюры вместе с фотографиями с более высоким разрешением.

решение1

Это будет сканировать сайт в поисках gif,png,jpg,jpeg, а затем grep этих результатов на предмет любых строк. Полученный список затем извлекается в указанный каталог с помощью wget. Вам нужно настроить '/path/to/save/files', а также URL для получения файлов.

Измените окончательный оператор grep, чтобы определить параметры поиска. Это будет:

grep "191\|282" --instead of-- grep "taco.gif\|whatever"

Примечание: Если вы добавляете или удаляете какие-либо типы файлов, измените соответствующим образом как параметры флага -A, так и последний grep.

wget -P /path/to/save/files/ $(wget --spider --execute robots=off \
--user-agent="Mozilla/5.0 Firefox4.0.1" --no-clobber --random-wait --force-html \
--recursive --no-directories -A gif,png,jpg,jpeg http://taco.com 2>&1 | grep -e \
'http\|Length\|broken link' | awk -F' ' '{ print $3 }' | sed '$!N;s/\n/ /' | grep \
'.gif\|.png\|.jpg\|.jpeg' | tr -d '()' | sed '/does$/d' | sort -k2 | \
grep "taco.gif\|whatever")

Примечание: это не сработает на многих сайтах, так как большинство администраторов блокируют wget и используют скрипты для блокировки сканеров, но на taco.com это работает отлично.

Я не пробовал, но этот плагин пакетной загрузки может работать лучше. https://chrome.google.com/webstore/detail/fatkun-batch-download-ima/nnjjahlikiabnchcpehcpkdeckfgnohf?hl=ru

Связанный контент