
私はwgetを使って特定のPDFファイルを取得していますhttp://www.aph.gov.au/
Hansard ファイル (法廷議事録) のみを取得したいです。
2つのシナリオ:
- ハンサードの記録がリストされているページがあります:
http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011
このページの日付リンクをクリックすると、データベース クエリへの応答が取得され、さらにファイルへのリンクが表示されます。取得したいのは、「Download Current Hansard」で示されるファイル、つまりその日の議事録全体です (「断片」は取得しません)。
クエリへの応答をクリックして、1 日分のトランスクリプトの URL を収集し、それらをファイルにパッケージ化して、wget -i を使用して取得できます。
wget を使用して 1 日のトランスクリプトのみを取得する方法を探しています。
- このページには、一部の年だけがリストされています。ただし、データベースにアクセスして Hansard で詳細検索を実行し、画面の左上にある 10 年の範囲をクリックしてから年をクリックすると、その年のさまざまな日のリストが表示されます。ここでも、表示されるトップレベルのリンクからは、1 日全体のトランスクリプトの PDF は表示されませんが、タイトルをクリックすると、1 日全体のトランスクリプトへのリンクを示すページが表示されます。
wget を使用して、1 日分のトランスクリプトの PDF のみを取得したいと思います。
アドバイスをいただければ幸いです。私は「半手動」の方法で進歩していますが、時間がかかり、労力がかかります。
答え1
のみを使用してこれを行うことはできませんwget
。
日付リンクを含む最初のページを取得し、そのページを解析して正しい URL を取得するスクリプトを作成する必要があります。次に、スクリプトはその URL にあるページを取得し、それを解析して PDF への URL を取得します。
これは、カスタムPythonスクリプトを使用して実行できます。美しいスープ図書館。