Usando o Wget para baixar arquivos com um nome específico de um site

Usando o Wget para baixar arquivos com um nome específico de um site

Qual seria a melhor maneira de procurar em um domínio de nível (semi) superior e em todas as suas subpastas ocorrências de certas combinações de letras numéricas.

Tenho diversas pastas com grandes listas de imagens e só preciso obter aquelas com ocorrências de determinados números. Ou seja: 282 ou 191

pontos de bônus se você puder me dizer como filtrar um tamanho mínimo para que eu não baixe miniaturas junto com fotos de resolução mais alta.

Responder1

Isso rastreará um site em busca de gif, png, jpg, jpeg e, em seguida, buscará esses resultados em busca de quaisquer strings. A lista resultante é então recuperada para o diretório especificado pelo wget. Você precisa ajustar '/caminho/para/salvar/arquivos', bem como o URL para obter os arquivos.

Ajuste a instrução grep final para definir seus parâmetros de pesquisa. Seria:

grep "191\|282" --instead of-- grep "taco.gif\|whatever"

Nota: Se você adicionar ou remover qualquer tipo de arquivo, modifique os parâmetros do sinalizador -A e o último grep de acordo.

wget -P /path/to/save/files/ $(wget --spider --execute robots=off \
--user-agent="Mozilla/5.0 Firefox4.0.1" --no-clobber --random-wait --force-html \
--recursive --no-directories -A gif,png,jpg,jpeg http://taco.com 2>&1 | grep -e \
'http\|Length\|broken link' | awk -F' ' '{ print $3 }' | sed '$!N;s/\n/ /' | grep \
'.gif\|.png\|.jpg\|.jpeg' | tr -d '()' | sed '/does$/d' | sort -k2 | \
grep "taco.gif\|whatever")

Observação: isso não funcionará em muitos sites, pois a maioria dos administradores bloqueia o wget e possui scripts para bloquear rastreadores, mas funciona bem no taco.com.

Ainda não experimentei, mas este plugin de download em lote pode funcionar melhor. https://chrome.google.com/webstore/detail/fatkun-batch-download-ima/nnjjahlikiabnchcpehcpkdeckfgnohf?hl=en

informação relacionada