Às vezes, desejo obter apenas a estrutura de diretórios de um site, mas os arquivos em si não são importantes. Eu só quero o nome deles. Mais ou menos como um espelho onde cada entrada é apenas um arquivo fictício vazio.
É claro que fazer um wget -r
e depois executar um script para esvaziar todos os arquivos funciona bem, mas parece um desperdício porque não é bom nem para o servidor nem para minha largura de banda. Uma maneira mais eficiente, mas ainda menos elegante, é interromper e reiniciar manualmente o processo sempre que você acessar um arquivo grande ou definir um tempo limite muito curto. Pelo menos isso reduz significativamente a quantidade de dados que preciso baixar.
Minha pergunta é: Posso fazer com que o wget apenas crie um arquivo, mas não baixe seu conteúdo? Ou estou usando a ferramenta errada para o trabalho?
Responder1
Postando uma resposta conforme solicitado:
Utilize a --spider
opção:
wget -r -nv --spider http://example.com
Então você pode analisar a estrutura do site a partir da saída. Isso não fará download de arquivos que não tenham chance de conter links, como imagens.