
Estou tentando extrair URLS de uma página da Web até n níveis definidos pelo usuário usando wget. Eu tentei isso
wget -r -l$2 --reject=gif -O out.html www.google.com | sed -n 's/.*href="\([^"]*\).*/\1/p'` "
Ele está exibindo apenas o primeiro nível. não está analisando nenhum nível, como posso corrigi-lo
Responder1
Livre-se do $2, a menos que você esteja atribuindo uma variável 2=1 ou algo parecido em outro lugar, -l$2 fará com que o wget seja gerado, wget: --level: Invalid number
o que não alimentará muito bem o sed.
você pode fazer:
wget -l 2 <address>
ou
wget --length=2 <address>
você também pode ter interesse na opção no-parent, que impedirá que o wget atravesse o diretório (n níveis). Esta é uma opção especialmente útil na recuperação recursiva, pois garante que apenas os arquivos abaixo de uma determinada hierarquia serão baixados.
wget -np <address>