So extrahieren Sie mithilfe von UNIX-Befehlen eine bestimmte URL aus HTML-Tags

Question

Die Verwendung von XML/HTML-Parsern ist eine gute Möglichkeit, XML/HTML-Daten zu bearbeiten:

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

Die Ausgabe:

http://www.rediff.com/news

sed 's/&/&/g'&- um das Et-Zeichen als Sonderzeichen in eine HTML-Entität umzuwandeln
//a[div/text() = "News"]/@href- XPath-Ausdruck, extrahiert hrefAttributwerte des aTags, wenn es einen untergeordneten Knoten divmit Text hatNews

Answer 1

Die Verwendung von XML/HTML-Parsern ist eine gute Möglichkeit, XML/HTML-Daten zu bearbeiten:

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

Die Ausgabe:

http://www.rediff.com/news

sed 's/&/&/g'&- um das Et-Zeichen als Sonderzeichen in eine HTML-Entität umzuwandeln
//a[div/text() = "News"]/@href- XPath-Ausdruck, extrahiert hrefAttributwerte des aTags, wenn es einen untergeordneten Knoten divmit Text hatNews

verwandte Informationen