analisar página da web em até n níveis usando wget

analisar página da web em até n níveis usando wget

Estou tentando extrair URLS de uma página da Web até n níveis definidos pelo usuário usando wget. Eu tentei isso

 wget -r -l$2 --reject=gif -O out.html www.google.com | sed -n 's/.*href="\([^"]*\).*/\1/p'` "

Ele está exibindo apenas o primeiro nível. não está analisando nenhum nível, como posso corrigi-lo

Responder1

Livre-se do $2, a menos que você esteja atribuindo uma variável 2=1 ou algo parecido em outro lugar, -l$2 fará com que o wget seja gerado, wget: --level: Invalid number o que não alimentará muito bem o sed.

você pode fazer:

wget -l 2 <address>

ou

wget --length=2 <address>

você também pode ter interesse na opção no-parent, que impedirá que o wget atravesse o diretório (n níveis). Esta é uma opção especialmente útil na recuperação recursiva, pois garante que apenas os arquivos abaixo de uma determinada hierarquia serão baixados.

wget -np <address>

informação relacionada