Изменение имен файлов ДО того, как wget загрузит их (не переименовывая локальные версии)

Question 1

Вы можете попробовать обходной путь.

Основные этапы:

Загрузите полный список файлов и сохраните его в файле
Измените конечную часть имени файла.
Загружайте только файлы с измененным именем.

Вам нужен файл, filter.awkпохожий на этот

/^--.*--  http:\/\/.*[^\/]$/ { u=$3; }
/^Length: [[:digit:]]+/ { print u; }

Шаг за шагом:

wget -r -np --spider http://yourhost | awk -f filter.awk  > My_List.txt
sed -i s/_sh.html/_lg.html/g My_List.txt
wget -x -i My_List.txt

Источники:
Я черпаю вдохновение изэтот ответ.

Answer

Вы можете попробовать обходной путь.

Основные этапы:

Загрузите полный список файлов и сохраните его в файле
Измените конечную часть имени файла.
Загружайте только файлы с измененным именем.

Вам нужен файл, filter.awkпохожий на этот

/^--.*--  http:\/\/.*[^\/]$/ { u=$3; }
/^Length: [[:digit:]]+/ { print u; }

Шаг за шагом:

wget -r -np --spider http://yourhost | awk -f filter.awk  > My_List.txt
sed -i s/_sh.html/_lg.html/g My_List.txt
wget -x -i My_List.txt

Источники:
Я черпаю вдохновение изэтот ответ.

Question 2

Сначала получите индексный файл:

wget -O index.html "$URI"

Затем перепишите в нем URL-адреса:

sed -i '/_sh\(\.html\)/_lg\1/g' index.html

(Я использовал sed, но вы можете предпочесть, например, подход на основе XSLT. Выбирайте сами.)

Теперь скажите wget, чтобы он захватил все pages/info/*, используя измененный файл индекса и его исходное местоположение в качестве начального базового URI:

wget --recursive --level=1 \
    --input-file=index.html --force-html --base="$URI" \
    --accept-regex 'pages/info/.*_lg\.html'

NB большинство этих длинных опций имеют короткие альтернативы - см. man-страницу. Я использовал длинную форму для ясности.

Answer

Сначала получите индексный файл:

wget -O index.html "$URI"

Затем перепишите в нем URL-адреса:

sed -i '/_sh\(\.html\)/_lg\1/g' index.html

(Я использовал sed, но вы можете предпочесть, например, подход на основе XSLT. Выбирайте сами.)

Теперь скажите wget, чтобы он захватил все pages/info/*, используя измененный файл индекса и его исходное местоположение в качестве начального базового URI:

wget --recursive --level=1 \
    --input-file=index.html --force-html --base="$URI" \
    --accept-regex 'pages/info/.*_lg\.html'

NB большинство этих длинных опций имеют короткие альтернативы - см. man-страницу. Я использовал длинную форму для ясности.

Изменение имен файлов ДО того, как wget загрузит их (не переименовывая локальные версии)

решение1

решение2

Связанный контент