
У меня уже был ответ на вопрос о веб-скрапинге с помощью wget. Но, прочитав немного больше, я понял, что, возможно, ищу программу для веб-сканирования. Особенно ту часть, где говорится о том, что веб-сканеры могут получать определенные данные, такие как ссылки или, в моем случае, продукты.
Все продукты на моем сайте имеют следующее соглашение об именовании: website.com/uniqueAlphaNumericID.html
. Насколько мне известно, динамическая генерация контента не используется, и на каждый элемент в указанном выше формате приходится только одна страница.
Стоит ли мне просто подумать о:
wget website.com | grep *.html
или мне следует обратить внимание на пауков/сканеров?