
Ich verwende wget, um bestimmte PDF-Dateien abzurufen vonhttp://www.aph.gov.au/
Ich möchte nur Hansard-Dateien (Protokolle der Kammersitzungen) abrufen.
Zwei Szenarien:
- Es gibt eine Seite, auf der Hansard-Transkripte aufgelistet sind:
http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011
Wenn Sie auf dieser Seite auf einen Tag-/Datumslink klicken, wird eine Antwort auf eine Datenbankabfrage abgerufen, die Links zu weiteren Dateien anzeigt. Ich möchte nur die Datei abrufen, die mit „Download Current Hansard“ gekennzeichnet ist, also das Transkript des gesamten Tages (ich möchte nicht die „Fragmente“ abrufen).
Ich kann auf die Antwort auf die Abfrage klicken, die URL(s) für das Transkript des gesamten Tages sammeln, sie in einer Datei verpacken und sie mit wget -i abrufen.
Ich suche nach einer Möglichkeit, mit wget nur die Transkripte des gesamten Tages abzurufen.
- Auf der Seite sind nur einige Jahre aufgelistet. Wenn Sie jedoch zur Datenbank gehen und eine erweiterte Suche nach Hansard durchführen, dann oben links auf dem Bildschirm auf die Jahrzehnte und dann auf ein Jahr klicken, wird eine Liste verschiedener Tage in diesem Jahr angezeigt. Auch hier führt der angezeigte Link der obersten Ebene nicht zur PDF-Datei des Transkripts des gesamten Tages, aber wenn Sie auf den Titel klicken, wird eine Seite angezeigt, die einen Link zum Transkript des gesamten Tages enthält.
Ich möchte wget verwenden, um nur die PDFs des gesamten Tagestranskripts abzurufen.
Ich bin für jeden Rat dankbar. Ich mache Fortschritte mit der „halbmanuellen“ Methode, aber sie ist langsam und arbeitsintensiv.
Antwort1
Dies ist nicht möglich, wenn Sie nur verwenden wget
.
Sie müssen ein Skript erstellen, das die erste Seite mit den Datumslinks erfasst und dann die Seite nach der richtigen URL analysiert. Anschließend erfasst das Skript die Seite unter dieser URL und analysiert sie nach der URL zum PDF.
Dies könnte mit einem benutzerdefinierten Python-Skript erfolgen, das Folgendes verwendet:schöne SuppeBibliothek.