Cómo extraer una URL particular de etiquetas HTML usando comandos UNIX

Question

Usar analizadores XML/HTML es una forma correcta de manipular datos XML/HTML:

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

La salida:

http://www.rediff.com/news

sed 's/&/&/g'- para convertir el signo comercial &como un carácter especial en una entidad HTML
//a[div/text() = "News"]/@href- expresión xpath, extrae hrefel valor del atributo de ala etiqueta si tiene un nodo secundario divcon textoNews

Answer 1

Usar analizadores XML/HTML es una forma correcta de manipular datos XML/HTML:

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

La salida:

http://www.rediff.com/news

sed 's/&/&/g'- para convertir el signo comercial &como un carácter especial en una entidad HTML
//a[div/text() = "News"]/@href- expresión xpath, extrae hrefel valor del atributo de ala etiqueta si tiene un nodo secundario divcon textoNews

información relacionada