Modificando nomes de arquivos ANTES do wget baixá-los (não renomeando versões locais)

Question 1

Você pode tentar uma solução alternativa.

Os marcos são:

Baixe a lista completa de arquivos e armazene-a em arquivo
Altere a parte final dos nomes dos arquivos
Baixe apenas os arquivos com nome modificado.

Você precisa de um arquivo filter.awksemelhante a este

/^--.*--  http:\/\/.*[^\/]$/ { u=$3; }
/^Length: [[:digit:]]+/ { print u; }

Passo a passo:

wget -r -np --spider http://yourhost | awk -f filter.awk  > My_List.txt
sed -i s/_sh.html/_lg.html/g My_List.txt
wget -x -i My_List.txt

Créditos:
me inspiro emesta resposta.

Answer

Você pode tentar uma solução alternativa.

Os marcos são:

Baixe a lista completa de arquivos e armazene-a em arquivo
Altere a parte final dos nomes dos arquivos
Baixe apenas os arquivos com nome modificado.

Você precisa de um arquivo filter.awksemelhante a este

/^--.*--  http:\/\/.*[^\/]$/ { u=$3; }
/^Length: [[:digit:]]+/ { print u; }

Passo a passo:

wget -r -np --spider http://yourhost | awk -f filter.awk  > My_List.txt
sed -i s/_sh.html/_lg.html/g My_List.txt
wget -x -i My_List.txt

Créditos:
me inspiro emesta resposta.

Question 2

Primeiro, obtenha o arquivo de índice:

wget -O index.html "$URI"

Em seguida, reescreva os URLs nele:

sed -i '/_sh\(\.html\)/_lg\1/g' index.html

(Eu usei sed, mas você pode preferir, por exemplo, uma abordagem baseada em XSLT. Faça a sua escolha.)

Agora, diga ao wget para pegar todos os arquivos pages/info/*, usando o arquivo de índice modificado e com sua localização original como URI base inicial:

wget --recursive --level=1 \
    --input-file=index.html --force-html --base="$URI" \
    --accept-regex 'pages/info/.*_lg\.html'

Nota: a maioria dessas opções longas tem alternativas curtas - consulte a página de manual. Usei o formato longo para maior clareza.

Answer

Primeiro, obtenha o arquivo de índice:

wget -O index.html "$URI"

Em seguida, reescreva os URLs nele:

sed -i '/_sh\(\.html\)/_lg\1/g' index.html

(Eu usei sed, mas você pode preferir, por exemplo, uma abordagem baseada em XSLT. Faça a sua escolha.)

Agora, diga ao wget para pegar todos os arquivos pages/info/*, usando o arquivo de índice modificado e com sua localização original como URI base inicial:

wget --recursive --level=1 \
    --input-file=index.html --force-html --base="$URI" \
    --accept-regex 'pages/info/.*_lg\.html'

Nota: a maioria dessas opções longas tem alternativas curtas - consulte a página de manual. Usei o formato longo para maior clareza.

Modificando nomes de arquivos ANTES do wget baixá-los (não renomeando versões locais)

Responder1

Responder2

informação relacionada