Como extrair URL específico de tags HTML usando comandos UNIX

Como extrair URL específico de tags HTML usando comandos UNIX

Quero extrair um link da tag http://www.rediff.com/newsabaixo<a>

<a href="http://www.rediff.com/news" onclick="trackURL('http://track.rediff.com/click?url=___http://www.rediff.com/news___&cmp=news1_nav&lnk=news1_nav&nsrv1=ushome');return false;"><div class="n_tabnormal">News</div></a>

usando algum comando Unix. Por favor, não há codificação para isso.

Responder1

Usar analisadores XML/HTML é uma maneira correta de manipular dados XML/HTML:

xmlstarletsolução:

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

A saída:

http://www.rediff.com/news

  • sed 's/&/&amp;/g'- para converter o "e" comercial &como um caractere especial em entidade HTML

  • //a[div/text() = "News"]/@href- expressão xpath, extrai hrefo valor do atributo da atag se ela tiver um nó filho divcom textoNews

informação relacionada