web spidering/crawling, posso fazer isso ou apenas mecanismos de pesquisa?

2024-7-3 • tag-icon

web spidering/crawling, posso fazer isso ou apenas mecanismos de pesquisa?

já tive uma pergunta respondida sobre web scraping com wget. mas à medida que leio um pouco mais, percebo que posso estar procurando um programa de rastreamento da web. particularmente a parte sobre os rastreadores da web serem capazes de obter dados específicos, como links ou, no meu caso, produtos.
todos os produtos em meu site têm a seguinte convenção de nomenclatura, website.com/uniqueAlphaNumericID.html,
até onde eu sei, nenhuma geração de conteúdo dinâmico está sendo usada e apenas uma página por item no formato acima.
devo apenas pensar em:
wget website.com | grep *.html
ou devo procurar spiders/crawlers?

informação relacionada