¿Cuál sería la mejor manera de buscar en un dominio de nivel (semi) superior y todas sus subcarpetas la aparición de ciertas combinaciones de números y letras?
Tengo varias carpetas con grandes listas de imágenes y solo necesito obtener aquellas con ciertos números. Es decir: 282 o 191
Puntos de bonificación si puedes decirme cómo filtrar un tamaño mínimo para no descargar miniaturas junto con las fotos de mayor resolución.
Respuesta1
Esto rastreará un sitio en busca de gif,png,jpg,jpeg y luego buscará esos resultados en busca de cadenas. Luego, wget recupera la lista resultante en el directorio especificado. Debe ajustar '/ruta/a/guardar/archivos', así como la URL desde donde obtener los archivos.
Ajuste la declaración grep final para definir sus parámetros de búsqueda. Sería:
grep "191\|282" --instead of-- grep "taco.gif\|whatever"
Nota: Si agrega o elimina algún tipo de archivo, modifique los parámetros del indicador -A y el último grep en consecuencia.
wget -P /path/to/save/files/ $(wget --spider --execute robots=off \
--user-agent="Mozilla/5.0 Firefox4.0.1" --no-clobber --random-wait --force-html \
--recursive --no-directories -A gif,png,jpg,jpeg http://taco.com 2>&1 | grep -e \
'http\|Length\|broken link' | awk -F' ' '{ print $3 }' | sed '$!N;s/\n/ /' | grep \
'.gif\|.png\|.jpg\|.jpeg' | tr -d '()' | sed '/does$/d' | sort -k2 | \
grep "taco.gif\|whatever")
Nota: Esto no funcionará en muchos sitios ya que la mayoría de los administradores bloquean wget y tienen scripts para bloquear rastreadores, pero funciona bien en taco.com.
No lo he probado, pero este complemento de descarga por lotes podría funcionar mejor. https://chrome.google.com/webstore/detail/fatkun-batch-download-ima/nnjjahlikiabnchcpehcpkdeckfgnohf?hl=en