Как можно извлечь/добыть/выудить/выудить данные с веб-сайта (предпочтительно) с помощью OSX?

Как можно извлечь/добыть/выудить/выудить данные с веб-сайта (предпочтительно) с помощью OSX?

Я пытаюсь «извлечь» данные с веб-сайта.

Есть ли способ просто указать программе URL, и она захватит все в этом домене. Как мне это сделать на OSX 10.5? Если действительно нужно, я могу использовать Ubuntu или Windows Box в качестве последнего средства.

решение1

Вы можете использовать wgetкоманду, котораядоступно для загрузки для Mac OS Xвключен в большинство дистрибутивов Linux для загрузки всего содержимого веб-сайта, изображений, CSS, JavaScript, видео, Flash-файлов и т. д.

Как только вы это сделаете, откройте терминал. Вы, вероятно, захотите вызвать его так:

wget -r -l0 -k http://www.example.com/

Это загрузитвсеиз http://www.example.com/доступных по ссылкам. -rОпция включает рекурсивную загрузку, поэтому она загружает больше, чем просто домашнюю страницу. Опция -lустанавливает, на сколько страниц в глубину она будет искать ссылки и загружать, установка на , 0как я сделал, заставит ее зайти так далеко, как только сможет. Обратите внимание, что если веб-сайт использует динамическую генерацию страниц, это может привести к большой загрузке, так как может быть много URL-адресов, указывающих на один и тот же или очень похожий контент. Команда -kнеобязательна и преобразует wgetвсе ссылки, теги изображений и т. д. в правильное расположение на вашем локальном компьютере, чтобы вы могли просматривать их с помощью веб-браузера на вашем компьютере, и она будет работать правильно.

Обратите внимание, что он будет загружать только файлы изwww.example.com, а не любые другие домены. Если вам нужно перейти на другие домены, используйте переключатель, -Hчтобы включить его, а затем используйте -Dпереключатель опций, чтобы определить другие домены для загрузки (например, -D comments.example.com,beta.example.com). Будьте осторожны, если вы не включите переключатель -Dи установите -lзначение 0/infinite, вы вполне можете попытаться загрузить всю Всемирную паутину!

Еще один переключатель, который может оказаться полезным, — это -Nпереключатель, который установит временную метку локального файла на время, указанное в Last-Modifiedзаголовке HTTP на сервере, и не будет загружать файлы, которые не были изменены при последующих загрузках.

Для получения более подробной информации проконсультируйтесьдокументацияwget.

Связанный контент