Как извлечь определенный URL из HTML-тегов с помощью команд UNIX

Question

Использование парсеров XML/HTML — это правильный способ манипулирования данными XML/HTML:

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

Выход:

http://www.rediff.com/news

sed 's/&/&/g'- для преобразования амперсанда &как специального символа в HTML-сущность
//a[div/text() = "News"]/@href- выражение xpath, извлекает hrefзначение атрибута aтега, если у него есть дочерний узел divс текстомNews

Answer 1

Использование парсеров XML/HTML — это правильный способ манипулирования данными XML/HTML:

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

Выход:

http://www.rediff.com/news

sed 's/&/&/g'- для преобразования амперсанда &как специального символа в HTML-сущность
//a[div/text() = "News"]/@href- выражение xpath, извлекает hrefзначение атрибута aтега, если у него есть дочерний узел divс текстомNews

Связанный контент