Wie exportiere ich alle Hyperlinks auf einer Webseite?

Wie exportiere ich alle Hyperlinks auf einer Webseite?

Ich brauche eine Lösung, um alle Hyperlinks auf einer Webseite (auf einer Webseite, nicht auf der gesamten Website) zu exportieren und eine Möglichkeit, die Links anzugeben, die ich exportieren möchte, zum Beispiel nur Hyperlinks, die mithttps://superuser.com/questions/alles andere ausgenommen.
Export als Textdatei bevorzugt und die Ergebnisse sollten untereinander angezeigt werden, eine URL pro Zeile:

https://superuser.com/questions/1  
https://superuser.com/questions/2  
https://superuser.com/questions/3
[...]

Antwort1

Wenn Sie ein Linux- oder Unix-System (wie FreeBSD oder macOS) verwenden, können Sie eine Terminalsitzung öffnen und diesen Befehl ausführen:

wget -O - http://example.com/webseite.htm | \
sed 's/href=/\nhref=/g' | \
grep href=\"http://specify.com | \
sed 's/.*href="//g;s/".*//g' > out.txt

Normalerweise können mehrere <a href>Tags in einer Zeile vorkommen, daher müssen Sie diese zuerst ausschneiden (das erste sedfügt vor jedem Schlüsselwort eine neue Zeile ein, hrefum sicherzustellen, dass nicht mehr als eines davon in einer Zeile vorkommt).
Um Links von mehreren ähnlichen Seiten zu extrahieren, beispielsweise alle Fragen auf den ersten 10 Seiten dieser Site, verwenden Sie eine forSchleife.

für i in $(seq 1 10); mache
wget -O - http://superuser.com/questions?page=$i | \
sed 's/href=/\nhref=/g' | \
grep -E 'href="http://superuser.com/questions/[0-9]+' | \
sed 's/.*href="//g;s/".*//g' >> out.txt
Erledigt

http://example.com/webpage.htmDenken Sie daran , durch Ihre tatsächliche Seiten-URL und durch die vorangehende Zeichenfolge zu ersetzen, http://specify.comdie Sie angeben möchten.
Sie können nicht nur eine vorangehende Zeichenfolge für die zu exportierende URL angeben, sondern auch ein reguläres Ausdrucksmuster, wenn Sie egrepoder grep -Eim oben angegebenen Befehl verwenden.
Wenn Sie ein Windows verwenden, sollten Sie die folgenden Funktionen nutzen:CygwinWget. Vergessen Sie nicht, die Pakete , grep, und auszuwählen sed.

Antwort2

Wenn Sie kein Problem damit haben, Firefox dafür zu verwenden, können Sie das AddonSnap Links Plus

  1. Halten Sie die rechte Maustaste gedrückt und ziehen Sie eine Auswahl um die Links.

  2. Wenn sie hervorgehoben sind, halten Sie die Strg-Taste gedrückt, während Sie die rechte Maustaste loslassen.

verwandte Informationen