Я хочу загрузить исходные файлы для веб-страницы, которая является поисковой системой по базам данных. Используя curl, я могу загрузить только главную html-страницу. Я также хотел бы загрузить все файлы javascript, css и php, которые связаны с веб-страницей и упомянуты на главной html-странице. Возможно ли это сделать с помощью curl/wget или какой-либо другой утилиты?
решение1
Прежде всего, вам следует проверить у оператора веб-сайта, является ли это приемлемым использованием их сервиса. После этого вы можете сделать что-то вроде этого:
wget -pk example.com
-p
получает реквизиты для просмотра страницы (Javascript, CSS и т. д.). -k
преобразует ссылки на странице в те, которые можно использовать для локального просмотра.
От man wget
:
-p, --page-requirements
Эта опция заставляет Wget загружать все файлы, необходимые для правильного отображения данной HTML-страницы. Сюда входят такие вещи, как встроенные изображения, звуки и ссылочные таблицы стилей.
[...]
-k, --convert-links
После завершения загрузки преобразуйте ссылки в документе, чтобы сделать их пригодными для локального просмотра. Это влияет не только на видимые гиперссылки, но и на любую часть документа, которая ссылается на внешний контент, такой как встроенные изображения, ссылки на таблицы стилей, гиперссылки на контент, отличный от HTML, и т. д.