¿Cómo navegar por la paginación basada en PHP con WGET?

Question

Este sitio tiene un diseño particularmente extraño. Sólo una nota: PHP no hace ninguna diferencia aquí.

Parece que cargan páginas con el siguiente método:

Al hacer clic en el enlace se ejecuta algo de JS.
Este JS completa un formulario oculto con el número de página.
Luego, el script envía el formulario, que realiza una solicitud POST al servidor.
El servidor responde directamente con la página correspondiente.

Tienes un par de opciones aquí. Lo más fácil es simplemente escribir una wgetsolicitud --post-dataen un bucle para recuperar todas las páginas del 1 al n. Consulte la documentación y el monitor de red de su navegador para averiguar cuál es la solicitud real. Por ejemplo, esto es lo que el monitor de red de Firefox dice que es el cuerpo de la solicitud:

Content-Type: application/x-www-form-urlencoded
Content-Length: 145

pagingQuery=select+*+from+tblbabynames+where+++religion%3D%27hindu%27+and+gender%3D%27M%27+limit+0%2C30&totalRows=3097&pageNum=2&searchResultNo=0

Probablemente puedas reemplazarlo pageNum=2en un bucle.

Un método más complicado sería utilizar un kit de herramientas de automatización del navegador como Selenium para navegar literalmente yhacer cliclos enlaces, activando el JS tal como lo haría un humano.

Answer 1