entendendo a saída do wget -r

Question

Você pode tentar pular os arquivos com --rejecta opção (também aceita caracteres curinga):

wget --rejeitar índice.html

No entanto, você não quer fazer isso. Ao usar wget with -r, de alguma forma é necessário obter uma lista de arquivos dentro do diretório. Assim, o wget solicita o arquivo index.html e analisa o conteúdo na esperança de obter caminhos para outros arquivos neste diretório. Quando não há arquivo index.html na pasta, o servidor web geralmente irá gerá-lo para wget - este arquivo conterá a listagem do diretório. A criação deste arquivo de lista deve ser habilitada no servidor web - caso contrário, o wget receberá uma resposta HTTP 404 e falhará no download recursivo.

Este é o tamanho do arquivo em bytes.
Isso significa que um arquivo não pôde ser removido (provavelmente porque não foi criado). Você tem permissão de gravação no diretório em que faz o download com o wget?

Editar:Depois de testar os downloads do wget, --spiderreproduzi --recursive seu erro de desvinculação. Parece que o wget usa o tipo de resposta content para determinar se o arquivo pode conter links para outros recursos. Se o teste do tipo de conteúdo falhar e o arquivo não for baixado, o wget ainda tentará remover o arquivo temporário, como se ele tivesse sido baixado (isso fica aparente ao executar novamente o wget com --debug. Ele indicará claramente Removing file due to --spider in recursive_retrieve():). Acho que você encontrou um bug no wget.

Answer 1

Você pode tentar pular os arquivos com --rejecta opção (também aceita caracteres curinga):

wget --rejeitar índice.html

No entanto, você não quer fazer isso. Ao usar wget with -r, de alguma forma é necessário obter uma lista de arquivos dentro do diretório. Assim, o wget solicita o arquivo index.html e analisa o conteúdo na esperança de obter caminhos para outros arquivos neste diretório. Quando não há arquivo index.html na pasta, o servidor web geralmente irá gerá-lo para wget - este arquivo conterá a listagem do diretório. A criação deste arquivo de lista deve ser habilitada no servidor web - caso contrário, o wget receberá uma resposta HTTP 404 e falhará no download recursivo.

Este é o tamanho do arquivo em bytes.
Isso significa que um arquivo não pôde ser removido (provavelmente porque não foi criado). Você tem permissão de gravação no diretório em que faz o download com o wget?

Editar:Depois de testar os downloads do wget, --spiderreproduzi --recursive seu erro de desvinculação. Parece que o wget usa o tipo de resposta content para determinar se o arquivo pode conter links para outros recursos. Se o teste do tipo de conteúdo falhar e o arquivo não for baixado, o wget ainda tentará remover o arquivo temporário, como se ele tivesse sido baixado (isso fica aparente ao executar novamente o wget com --debug. Ele indicará claramente Removing file due to --spider in recursive_retrieve():). Acho que você encontrou um bug no wget.

entendendo a saída do wget -r

Responder1

informação relacionada