Quero baixar os arquivos de origem de uma página da Web que é um mecanismo de pesquisa de banco de dados. Usando curl, só consigo baixar a página HTML principal. Também gostaria de baixar todos os arquivos javascript, arquivos css e arquivos php vinculados à página da web e mencionados na página html principal. Isso é possível usando curl/wget ou algum outro utilitário?
Responder1
Em primeiro lugar, você deve verificar com o operador do site se este é um uso aceitável do seu serviço. Depois disso, você pode fazer algo assim:
wget -pk example.com
-p
obtém os requisitos para visualizar a página (Javascript, CSS, etc). -k
converte os links da página naqueles que podem ser usados para visualização local.
De man wget
:
-p, --page-requisitos
Esta opção faz com que o Wget baixe todos os arquivos necessários para exibir corretamente uma determinada página HTML. Isso inclui coisas como imagens embutidas, sons e folhas de estilo referenciadas.
[...]
-k, --convert-links
Após a conclusão do download, converta os links do documento para torná-los adequados para visualização local. Isso afeta não apenas os hiperlinks visíveis, mas qualquer parte do documento vinculada a conteúdo externo, como imagens incorporadas, links para folhas de estilo, hiperlinks para conteúdo não HTML, etc.