Какой был бы наилучший способ просмотреть домен (полу)верхнего уровня и все его подпапки на предмет вхождений определенных комбинаций цифр и букв?
У меня есть несколько папок с большими списками изображений, и мне нужно получить только те, в которых встречаются определенные числа. Например: 282 или 191
Бонусные баллы, если вы сможете мне сказать, как отфильтровать минимальный размер, чтобы мне не приходилось загружать миниатюры вместе с фотографиями с более высоким разрешением.
решение1
Это будет сканировать сайт в поисках gif,png,jpg,jpeg, а затем grep этих результатов на предмет любых строк. Полученный список затем извлекается в указанный каталог с помощью wget. Вам нужно настроить '/path/to/save/files', а также URL для получения файлов.
Измените окончательный оператор grep, чтобы определить параметры поиска. Это будет:
grep "191\|282" --instead of-- grep "taco.gif\|whatever"
Примечание: Если вы добавляете или удаляете какие-либо типы файлов, измените соответствующим образом как параметры флага -A, так и последний grep.
wget -P /path/to/save/files/ $(wget --spider --execute robots=off \
--user-agent="Mozilla/5.0 Firefox4.0.1" --no-clobber --random-wait --force-html \
--recursive --no-directories -A gif,png,jpg,jpeg http://taco.com 2>&1 | grep -e \
'http\|Length\|broken link' | awk -F' ' '{ print $3 }' | sed '$!N;s/\n/ /' | grep \
'.gif\|.png\|.jpg\|.jpeg' | tr -d '()' | sed '/does$/d' | sort -k2 | \
grep "taco.gif\|whatever")
Примечание: это не сработает на многих сайтах, так как большинство администраторов блокируют wget и используют скрипты для блокировки сканеров, но на taco.com это работает отлично.
Я не пробовал, но этот плагин пакетной загрузки может работать лучше. https://chrome.google.com/webstore/detail/fatkun-batch-download-ima/nnjjahlikiabnchcpehcpkdeckfgnohf?hl=ru