wget -- オンライン データベースからの PDF ファイルの取得

wget -- オンライン データベースからの PDF ファイルの取得

私はwgetを使って特定のPDFファイルを取得していますhttp://www.aph.gov.au/

Hansard ファイル (法廷議事録) のみを取得したいです。

2つのシナリオ:

  1. ハンサードの記録がリストされているページがあります:

http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011

このページの日付リンクをクリックすると、データベース クエリへの応答が取得され、さらにファイルへのリンクが表示されます。取得したいのは、「Download Current Hansard」で示されるファイル、つまりその日の議事録全体です (「断片」は取得しません)。

クエリへの応答をクリックして、1 日分のトランスクリプトの URL を収集し、それらをファイルにパッケージ化して、wget -i を使用して取得できます。

wget を使用して 1 日のトランスクリプトのみを取得する方法を探しています。

  1. このページには、一部の年だけがリストされています。ただし、データベースにアクセスして Hansard で詳細検索を実行し、画面の左上にある 10 年の範囲をクリックしてから年をクリックすると、その年のさまざまな日のリストが表示されます。ここでも、表示されるトップレベルのリンクからは、1 日全体のトランスクリプトの PDF は表示されませんが、タイトルをクリックすると、1 日全体のトランスクリプトへのリンクを示すページが表示されます。

wget を使用して、1 日分のトランスクリプトの PDF のみを取得したいと思います。

アドバイスをいただければ幸いです。私は「半手動」の方法で進歩していますが、時間がかかり、労力がかかります。

答え1

のみを使用してこれを行うことはできませんwget

日付リンクを含む最初のページを取得し、そのページを解析して正しい URL を取得するスクリプトを作成する必要があります。次に、スクリプトはその URL にあるページを取得し、それを解析して PDF への URL を取得します。

これは、カスタムPythonスクリプトを使用して実行できます。美しいスープ図書館。

関連情報