Posso usar o wget para baixar todos os arquivos recursivamente, mas não o conteúdo real?

Posso usar o wget para baixar todos os arquivos recursivamente, mas não o conteúdo real?

Às vezes, desejo obter apenas a estrutura de diretórios de um site, mas os arquivos em si não são importantes. Eu só quero o nome deles. Mais ou menos como um espelho onde cada entrada é apenas um arquivo fictício vazio.

É claro que fazer um wget -re depois executar um script para esvaziar todos os arquivos funciona bem, mas parece um desperdício porque não é bom nem para o servidor nem para minha largura de banda. Uma maneira mais eficiente, mas ainda menos elegante, é interromper e reiniciar manualmente o processo sempre que você acessar um arquivo grande ou definir um tempo limite muito curto. Pelo menos isso reduz significativamente a quantidade de dados que preciso baixar.

Minha pergunta é: Posso fazer com que o wget apenas crie um arquivo, mas não baixe seu conteúdo? Ou estou usando a ferramenta errada para o trabalho?

Responder1

Postando uma resposta conforme solicitado:

Utilize a --spideropção:

wget -r -nv --spider http://example.com

Então você pode analisar a estrutura do site a partir da saída. Isso não fará download de arquivos que não tenham chance de conter links, como imagens.

informação relacionada