Como extrair URL específico de tags HTML usando comandos UNIX

Question

Usar analisadores XML/HTML é uma maneira correta de manipular dados XML/HTML:

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

A saída:

http://www.rediff.com/news

sed 's/&/&/g'- para converter o "e" comercial &como um caractere especial em entidade HTML
//a[div/text() = "News"]/@href- expressão xpath, extrai hrefo valor do atributo da atag se ela tiver um nó filho divcom textoNews

Answer 1

Usar analisadores XML/HTML é uma maneira correta de manipular dados XML/HTML:

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

A saída:

http://www.rediff.com/news

sed 's/&/&/g'- para converter o "e" comercial &como um caractere especial em entidade HTML
//a[div/text() = "News"]/@href- expressão xpath, extrai hrefo valor do atributo da atag se ela tiver um nó filho divcom textoNews

informação relacionada