Qual seria a melhor maneira de procurar em um domínio de nível (semi) superior e em todas as suas subpastas ocorrências de certas combinações de letras numéricas.
Tenho diversas pastas com grandes listas de imagens e só preciso obter aquelas com ocorrências de determinados números. Ou seja: 282 ou 191
pontos de bônus se você puder me dizer como filtrar um tamanho mínimo para que eu não baixe miniaturas junto com fotos de resolução mais alta.
Responder1
Isso rastreará um site em busca de gif, png, jpg, jpeg e, em seguida, buscará esses resultados em busca de quaisquer strings. A lista resultante é então recuperada para o diretório especificado pelo wget. Você precisa ajustar '/caminho/para/salvar/arquivos', bem como o URL para obter os arquivos.
Ajuste a instrução grep final para definir seus parâmetros de pesquisa. Seria:
grep "191\|282" --instead of-- grep "taco.gif\|whatever"
Nota: Se você adicionar ou remover qualquer tipo de arquivo, modifique os parâmetros do sinalizador -A e o último grep de acordo.
wget -P /path/to/save/files/ $(wget --spider --execute robots=off \
--user-agent="Mozilla/5.0 Firefox4.0.1" --no-clobber --random-wait --force-html \
--recursive --no-directories -A gif,png,jpg,jpeg http://taco.com 2>&1 | grep -e \
'http\|Length\|broken link' | awk -F' ' '{ print $3 }' | sed '$!N;s/\n/ /' | grep \
'.gif\|.png\|.jpg\|.jpeg' | tr -d '()' | sed '/does$/d' | sort -k2 | \
grep "taco.gif\|whatever")
Observação: isso não funcionará em muitos sites, pois a maioria dos administradores bloqueia o wget e possui scripts para bloquear rastreadores, mas funciona bem no taco.com.
Ainda não experimentei, mas este plugin de download em lote pode funcionar melhor. https://chrome.google.com/webstore/detail/fatkun-batch-download-ima/nnjjahlikiabnchcpehcpkdeckfgnohf?hl=en