Como navegar na paginação baseada em PHP com WGET?

Question

Este site tem um design particularmente estranho. Apenas uma observação, porém, o PHP não faz diferença aqui.

Parece que eles carregam páginas com o seguinte método:

Clicar no link executa algum JS.
Este JS preenche um formulário oculto com o número da página.
O script então envia o formulário, que faz uma solicitação POST ao servidor.
O servidor responde diretamente com a página relevante.

Você tem algumas opções aqui. O mais fácil é simplesmente criar um script de wgetsolicitação --post-dataem um loop para recuperar todas as páginas de 1 a n. Consulte a documentação e o monitor de rede do seu navegador para descobrir qual é a solicitação real. Por exemplo, isto é o que o monitor de rede do Firefox diz que o corpo da solicitação é:

Content-Type: application/x-www-form-urlencoded
Content-Length: 145

pagingQuery=select+*+from+tblbabynames+where+++religion%3D%27hindu%27+and+gender%3D%27M%27+limit+0%2C30&totalRows=3097&pageNum=2&searchResultNo=0

Você provavelmente pode substituir o pageNum=2em um loop.

Um método mais complexo seria usar um kit de ferramentas de automação de navegador como o Selenium para navegar literalmente ecliqueos links, ativando o JS como um humano faria.

Answer 1