Extrahieren von Links aus einem numerischen Bereich von Webseiten

Question 1

Wenn Sie hierfür Code verwenden möchten, können Sie dies in Perl mithilfe der Module LWP::Simple oder Mechanize tun.

Im Folgenden finden Sie möglicherweise, wonach Sie suchenSuchen Sie mit dem Modul LWP::Simple nach allen Links auf einer Webseite

Dies setzt voraus, dass Sie mit der Verwendung einer Befehlszeilenlösung mit Perl vertraut sind. Dies funktioniert auf Windows- und Linux-Plattformen gleich. Es sind keine großen Änderungen erforderlich, um URLs als Parameter von der Befehlszeile zum Parsen zu übernehmen.

Answer

Wenn Sie hierfür Code verwenden möchten, können Sie dies in Perl mithilfe der Module LWP::Simple oder Mechanize tun.

Im Folgenden finden Sie möglicherweise, wonach Sie suchenSuchen Sie mit dem Modul LWP::Simple nach allen Links auf einer Webseite

Dies setzt voraus, dass Sie mit der Verwendung einer Befehlszeilenlösung mit Perl vertraut sind. Dies funktioniert auf Windows- und Linux-Plattformen gleich. Es sind keine großen Änderungen erforderlich, um URLs als Parameter von der Befehlszeile zum Parsen zu übernehmen.

Question 2

Ja, es ist ein gutes altes Bash-Skript. Es verwendet den Lynx-Browser, um die URLs aus den Seiten zu extrahieren und in eine Textdatei zu schreiben:

#!/bin/bash
#
# Usage:
#
#   linkextract <start> <end> <pad> <url>
#
#   <start> is the first number in the filename range. Must be an integer
#   <stop> is the last number in the filename range. Must be an integer
#   <pad> is the number of digits the number in the filename is zero-padded to. 
#   <url> is the URL. Insert "<num>" where you want the number to appear. You'll
#         need to enclose the entire argument in quotes

for (( i=${1} ; i<=${2} ; i++ )); do {
    num=$(printf "%04d" ${i})
    url=$(echo ${4} | sed "s/<num>/${num}/")
    lynx -dump -listonly "${url}" | sed -r -n "/^ +[0-9]/s/^ +[0-9]+\. //p"
}; done

Sie müssen den Lynx-Browser installieren, der unter Debian als Paket „lynx“ verfügbar ist. Das Skript druckt die extrahierten URLs auf stdout. Für das Beispiel in Ihrer Frage würden Sie also Folgendes tun (vorausgesetzt, Sie speichern das Skript in einer Datei namens „linkextract“):

$ linkextract 1 329 3 "http://example.com/page<num>.html"

Answer

Ja, es ist ein gutes altes Bash-Skript. Es verwendet den Lynx-Browser, um die URLs aus den Seiten zu extrahieren und in eine Textdatei zu schreiben:

#!/bin/bash
#
# Usage:
#
#   linkextract <start> <end> <pad> <url>
#
#   <start> is the first number in the filename range. Must be an integer
#   <stop> is the last number in the filename range. Must be an integer
#   <pad> is the number of digits the number in the filename is zero-padded to. 
#   <url> is the URL. Insert "<num>" where you want the number to appear. You'll
#         need to enclose the entire argument in quotes

for (( i=${1} ; i<=${2} ; i++ )); do {
    num=$(printf "%04d" ${i})
    url=$(echo ${4} | sed "s/<num>/${num}/")
    lynx -dump -listonly "${url}" | sed -r -n "/^ +[0-9]/s/^ +[0-9]+\. //p"
}; done

Sie müssen den Lynx-Browser installieren, der unter Debian als Paket „lynx“ verfügbar ist. Das Skript druckt die extrahierten URLs auf stdout. Für das Beispiel in Ihrer Frage würden Sie also Folgendes tun (vorausgesetzt, Sie speichern das Skript in einer Datei namens „linkextract“):

$ linkextract 1 329 3 "http://example.com/page<num>.html"

Question 3

Du kannst den ... benutzenSite Visualizer-Crawlerfür diese Arbeit. Laden Sie es herunter und installieren Sie es, dann klicken Sie aufNeues Projekt, geben Sie die URL Ihrer Website ein, klicken Sie auf OK und dannCrawl startenWerkzeugschaltfläche.

Doppelklicken Sie nach Abschluss des CrawlingsAlle LinksBericht derBerichteSie erhalten alle Links, die auf der Website vorhanden sind, sowie weitere Informationen: Quell-/Ziel-Link-URLs, Inhaltstyp (HTML, Bild, PDF, CSS usw.), Antwort usw. Wählen Sie die gesamte Tabelle aus (Kontextmenü oder Tastenkombination Strg+A) und klicken Sie dann aufZeilen mit Überschriften kopierenKontextmenüpunkt. Anschließend können Sie die Daten in eine Excel-Tabelle oder ein einfaches Textdokument einfügen:

Extrahieren Sie alle Website-Links

Das Programm verfügt über eine 30-tägige Testphase, ist jedoch mit allen Funktionen ausgestattet, sodass Sie es einen Monat lang kostenlos nutzen können.

Answer

Du kannst den ... benutzenSite Visualizer-Crawlerfür diese Arbeit. Laden Sie es herunter und installieren Sie es, dann klicken Sie aufNeues Projekt, geben Sie die URL Ihrer Website ein, klicken Sie auf OK und dannCrawl startenWerkzeugschaltfläche.

Doppelklicken Sie nach Abschluss des CrawlingsAlle LinksBericht derBerichteSie erhalten alle Links, die auf der Website vorhanden sind, sowie weitere Informationen: Quell-/Ziel-Link-URLs, Inhaltstyp (HTML, Bild, PDF, CSS usw.), Antwort usw. Wählen Sie die gesamte Tabelle aus (Kontextmenü oder Tastenkombination Strg+A) und klicken Sie dann aufZeilen mit Überschriften kopierenKontextmenüpunkt. Anschließend können Sie die Daten in eine Excel-Tabelle oder ein einfaches Textdokument einfügen:

Extrahieren Sie alle Website-Links

Das Programm verfügt über eine 30-tägige Testphase, ist jedoch mit allen Funktionen ausgestattet, sodass Sie es einen Monat lang kostenlos nutzen können.

Extrahieren von Links aus einem numerischen Bereich von Webseiten

Antwort1

Antwort2

Antwort3

verwandte Informationen