WGET を使用して PHP ベースのページネーションをナビゲートするにはどうすればよいですか?

Question

このサイトは特に奇妙なデザインです。ただし、PHP はここでは何の違いも生みません。

次の方法でページを読み込むようです:

リンクをクリックすると、いくつかの JS が実行されます。
この JS は隠しフォームにページ番号を入力します。
次に、スクリプトはフォームを送信し、サーバーに POST リクエストを送信します。
サーバーは関連するページを直接応答します。

ここではいくつかのオプションがあります。最も簡単な方法は、ループ内wgetでリクエストをスクリプト化--post-dataして、1 から n までのすべてのページを取得することです。実際のリクエストが何であるかを確認するには、ドキュメントとブラウザのネットワークモニターを参照してください。たとえば、Firefox のネットワークモニターでは、リクエストの本文は次のようになります。

Content-Type: application/x-www-form-urlencoded
Content-Length: 145

pagingQuery=select+*+from+tblbabynames+where+++religion%3D%27hindu%27+and+gender%3D%27M%27+limit+0%2C30&totalRows=3097&pageNum=2&searchResultNo=0

おそらくpageNum=2ループ内で置き換えることができます。

もっと複雑な方法は、Seleniumのようなブラウザ自動化ツールキットを使用して文字通りナビゲートし、クリックリンクをクリックすると、人間と同じように JS がアクティブになります。

Answer 1