Verwenden von Wget zum Herunterladen von Dateien mit einem bestimmten Namen von einer Site

Verwenden von Wget zum Herunterladen von Dateien mit einem bestimmten Namen von einer Site

Was wäre die beste Möglichkeit, eine (Semi-)Top-Level-Domain und alle ihre Unterordner nach Vorkommen bestimmter Zahlen-Buchstaben-Kombinationen zu durchsuchen?

Ich habe mehrere Ordner mit großen Bildlisten und muss nur die Bilder abrufen, in denen bestimmte Zahlen vorkommen. Zum Beispiel: 282 oder 191

Bonuspunkte, wenn Sie mir sagen können, wie ich eine Mindestgröße herausfiltern kann, sodass ich nicht zusammen mit den Fotos mit höherer Auflösung auch Miniaturansichten herunterlade.

Antwort1

Dadurch wird eine Site nach GIF, PNG, JPG und JPEG durchsucht und diese Ergebnisse werden dann nach beliebigen Zeichenfolgen durchsucht. Die resultierende Liste wird dann von wget in das angegebene Verzeichnis abgerufen. Sie müssen „/Pfad/zum/Speichern/von/Dateien“ sowie die URL anpassen, von der die Dateien abgerufen werden sollen.

Passen Sie die letzte Grep-Anweisung an, um Ihre Suchparameter zu definieren. Sie lautet:

grep "191\|282" --instead of-- grep "taco.gif\|whatever"

Hinweis: Wenn Sie Dateitypen hinzufügen oder entfernen, ändern Sie sowohl die Flag-Parameter -A als auch das letzte Grep entsprechend.

wget -P /path/to/save/files/ $(wget --spider --execute robots=off \
--user-agent="Mozilla/5.0 Firefox4.0.1" --no-clobber --random-wait --force-html \
--recursive --no-directories -A gif,png,jpg,jpeg http://taco.com 2>&1 | grep -e \
'http\|Length\|broken link' | awk -F' ' '{ print $3 }' | sed '$!N;s/\n/ /' | grep \
'.gif\|.png\|.jpg\|.jpeg' | tr -d '()' | sed '/does$/d' | sort -k2 | \
grep "taco.gif\|whatever")

Hinweis: Dies funktioniert auf vielen Websites nicht, da die meisten Administratoren wget blockieren und Skripte zum Blockieren von Crawlern haben, aber auf taco.com funktioniert es einwandfrei.

Ich habe es nicht ausprobiert, aber dieses Batch-Downloader-Plugin könnte besser funktionieren. https://chrome.google.com/webstore/detail/fatkun-batch-download-ima/nnjjahlikiabnchcpehcpkdeckfgnohf?hl=en

verwandte Informationen