Rastreo/rastreo web, ¿puedo hacerlo yo o solo los motores de búsqueda?

Rastreo/rastreo web, ¿puedo hacerlo yo o solo los motores de búsqueda?

Ya tuve una pregunta respondida sobre el web scraping con wget. pero a medida que leo un poco más, me doy cuenta de que quizás esté buscando un programa de rastreo web. particularmente la parte sobre los rastreadores web que pueden obtener datos específicos como enlaces o, en mi caso, productos.
Todos los productos de mi sitio tienen la siguiente convención de nomenclatura, website.com/uniqueAlphaNumericID.html.
Hasta donde yo sé, no se utiliza ninguna generación de contenido dinámico y solo una página por elemento en el formato anterior.
¿Debería estar pensando en:
wget website.com | grep *.html
o debería buscar arañas/rastreadores?

información relacionada