Загрузить все исходные файлы для веб-страницы

Загрузить все исходные файлы для веб-страницы

Я хочу загрузить исходные файлы для веб-страницы, которая является поисковой системой по базам данных. Используя curl, я могу загрузить только главную html-страницу. Я также хотел бы загрузить все файлы javascript, css и php, которые связаны с веб-страницей и упомянуты на главной html-странице. Возможно ли это сделать с помощью curl/wget или какой-либо другой утилиты?

решение1

Прежде всего, вам следует проверить у оператора веб-сайта, является ли это приемлемым использованием их сервиса. После этого вы можете сделать что-то вроде этого:

wget -pk example.com

-pполучает реквизиты для просмотра страницы (Javascript, CSS и т. д.). -kпреобразует ссылки на странице в те, которые можно использовать для локального просмотра.

От man wget:

-p, --page-requirements

Эта опция заставляет Wget загружать все файлы, необходимые для правильного отображения данной HTML-страницы. Сюда входят такие вещи, как встроенные изображения, звуки и ссылочные таблицы стилей.

[...]

-k, --convert-links

После завершения загрузки преобразуйте ссылки в документе, чтобы сделать их пригодными для локального просмотра. Это влияет не только на видимые гиперссылки, но и на любую часть документа, которая ссылается на внешний контент, такой как встроенные изображения, ссылки на таблицы стилей, гиперссылки на контент, отличный от HTML, и т. д.

Связанный контент