Baixe todos os arquivos de origem de uma página da web

Baixe todos os arquivos de origem de uma página da web

Quero baixar os arquivos de origem de uma página da Web que é um mecanismo de pesquisa de banco de dados. Usando curl, só consigo baixar a página HTML principal. Também gostaria de baixar todos os arquivos javascript, arquivos css e arquivos php vinculados à página da web e mencionados na página html principal. Isso é possível usando curl/wget ou algum outro utilitário?

Responder1

Em primeiro lugar, você deve verificar com o operador do site se este é um uso aceitável do seu serviço. Depois disso, você pode fazer algo assim:

wget -pk example.com

-pobtém os requisitos para visualizar a página (Javascript, CSS, etc). -kconverte os links da página naqueles que podem ser usados ​​para visualização local.

De man wget:

-p, --page-requisitos

Esta opção faz com que o Wget baixe todos os arquivos necessários para exibir corretamente uma determinada página HTML. Isso inclui coisas como imagens embutidas, sons e folhas de estilo referenciadas.

[...]

-k, --convert-links

Após a conclusão do download, converta os links do documento para torná-los adequados para visualização local. Isso afeta não apenas os hiperlinks visíveis, mas qualquer parte do documento vinculada a conteúdo externo, como imagens incorporadas, links para folhas de estilo, hiperlinks para conteúdo não HTML, etc.

informação relacionada