UNIX コマンドを使用して HTML タグから特定の URL を抽出する方法

Question

XML/HTML パーサーを使用することは、XML/HTML データを操作する正しい方法です。

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

出力：

http://www.rediff.com/news

sed 's/&/&/g'&- アンパサンドを特殊文字としてHTMLエンティティに変換する
//a[div/text() = "News"]/@href- xpath式、テキストを含む子ノードがある場合にタグhrefの属性値を抽出しますadivNews

Answer 1

XML/HTML パーサーを使用することは、XML/HTML データを操作する正しい方法です。

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

出力：

http://www.rediff.com/news

sed 's/&/&/g'&- アンパサンドを特殊文字としてHTMLエンティティに変換する
//a[div/text() = "News"]/@href- xpath式、テキストを含む子ノードがある場合にタグhrefの属性値を抽出しますadivNews

関連情報