Usando sed para filtrar elementos RSS

Question

Como se sugiere en los comentarios, intenté usar xmlstarletpara resolver esto y funciona bien. Aquí está mi guión

xml ed -d '//item[not(contains(title,"Project Foo"))]' < sample_rss.xml

Supongamos que el contenido del feed está en el archivo sample_rss.xml. Ese contenido se introduce en xml ed -d, que elimina cualquier nota que coincida con la expresión XPath dada. La expresión XPath busca cualquiera <item> que no tenga un nodo <title>que contenga el texto "Project Foo".

Esto parece funcionar bien y también estoy muy contento con el tiempo de ejecución:

real    0m0.003s
user    0m0.001s
sys     0m0.002s

Cuidado con los espacios de nombres

Si desea que esto funcione con feeds rss o atom adecuados, puede observar que feedcontiene un atributo de espacio de nombres XML ( xmlns), como en este ejemplo de YouTube:

<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns:yt="http://www.youtube.com/xml/schemas/2015" xmlns:media="http://search.yahoo.com/mrss/" xmlns="http://www.w3.org/2005/Atom">
   ...
</feed>

Entonces, ¡el script anterior ya no funcionará! Me causó bastante dolor de cabeza solucionarlo, pero aquí se explica cómo hacerlo funcionar:

xml ed -d '//_:entry[not(contains(_:title,"Project Foo"))]' < youtube_rss.xml

Más sobre este problema de espacio de nombres aquí:http://xmlstar.sourceforge.net/doc/UG/ch05.html

Answer 1