Ändern der Dateinamen, BEVOR wget sie herunterlädt (kein Umbenennen lokaler Versionen)

Question 1

Sie können es mit einem Workaround versuchen.

Die Meilensteine sind:

Laden Sie die vollständige Dateiliste herunter und speichern Sie sie in einer Datei
Ändern Sie den letzten Teil der Dateinamen
Laden Sie nur die Dateien mit geändertem Namen herunter.

Sie benötigen eine Datei filter.awkähnlich dieser

/^--.*--  http:\/\/.*[^\/]$/ { u=$3; }
/^Length: [[:digit:]]+/ { print u; }

Schritt für Schritt:

wget -r -np --spider http://yourhost | awk -f filter.awk  > My_List.txt
sed -i s/_sh.html/_lg.html/g My_List.txt
wget -x -i My_List.txt

Credits:
Ich lasse mich inspirieren vondiese Antwort.

Answer

Sie können es mit einem Workaround versuchen.

Die Meilensteine sind:

Laden Sie die vollständige Dateiliste herunter und speichern Sie sie in einer Datei
Ändern Sie den letzten Teil der Dateinamen
Laden Sie nur die Dateien mit geändertem Namen herunter.

Sie benötigen eine Datei filter.awkähnlich dieser

/^--.*--  http:\/\/.*[^\/]$/ { u=$3; }
/^Length: [[:digit:]]+/ { print u; }

Schritt für Schritt:

wget -r -np --spider http://yourhost | awk -f filter.awk  > My_List.txt
sed -i s/_sh.html/_lg.html/g My_List.txt
wget -x -i My_List.txt

Credits:
Ich lasse mich inspirieren vondiese Antwort.

Question 2

Holen Sie sich zuerst die Indexdatei:

wget -O index.html "$URI"

Schreiben Sie dann die darin enthaltenen URLs um:

sed -i '/_sh\(\.html\)/_lg\1/g' index.html

(Ich habe sed verwendet, aber Sie bevorzugen vielleicht z. B. einen XSLT-basierten Ansatz. Treffen Sie Ihre Wahl.)

Sagen Sie wget jetzt, dass es alle abrufen soll pages/info/*, und zwar unter Verwendung der geänderten Indexdatei und ihres ursprünglichen Speicherorts als Start-URI:

wget --recursive --level=1 \
    --input-file=index.html --force-html --base="$URI" \
    --accept-regex 'pages/info/.*_lg\.html'

NB: Die meisten dieser langen Optionen haben kurze Alternativen – siehe Manpage. Ich habe der Übersichtlichkeit halber die lange Form verwendet.

Answer

Holen Sie sich zuerst die Indexdatei:

wget -O index.html "$URI"

Schreiben Sie dann die darin enthaltenen URLs um:

sed -i '/_sh\(\.html\)/_lg\1/g' index.html

(Ich habe sed verwendet, aber Sie bevorzugen vielleicht z. B. einen XSLT-basierten Ansatz. Treffen Sie Ihre Wahl.)

Sagen Sie wget jetzt, dass es alle abrufen soll pages/info/*, und zwar unter Verwendung der geänderten Indexdatei und ihres ursprünglichen Speicherorts als Start-URI:

wget --recursive --level=1 \
    --input-file=index.html --force-html --base="$URI" \
    --accept-regex 'pages/info/.*_lg\.html'

NB: Die meisten dieser langen Optionen haben kurze Alternativen – siehe Manpage. Ich habe der Übersichtlichkeit halber die lange Form verwendet.

Ändern der Dateinamen, BEVOR wget sie herunterlädt (kein Umbenennen lokaler Versionen)

Antwort1

Antwort2

verwandte Informationen