Usando sed para filtrar itens RSS

Question

Conforme sugerido nos comentários, tentei usar xmlstarletpara resolver isso e funcionou bem. Aqui está meu roteiro

xml ed -d '//item[not(contains(title,"Project Foo"))]' < sample_rss.xml

Vamos supor que o conteúdo do feed esteja no arquivo sample_rss.xml. Esse conteúdo é alimentado xml ed -d, o que exclui qualquer nota que corresponda à expressão XPath fornecida. A expressão XPath procura qualquer um <item> que não possua um nó <title>que contenha o texto "Project Foo".

Isso parece funcionar bem e também estou muito feliz com o tempo de execução:

real    0m0.003s
user    0m0.001s
sys     0m0.002s

Cuidado com os namespaces

Se você quiser fazer isso funcionar com feeds rss ou atom adequados, você pode notar que feedcontém um atributo XML Namespace ( xmlns), assim como neste exemplo do YouTube:

<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns:yt="http://www.youtube.com/xml/schemas/2015" xmlns:media="http://search.yahoo.com/mrss/" xmlns="http://www.w3.org/2005/Atom">
   ...
</feed>

Então, o script acima não funcionará mais! Me causou muita dor de cabeça consertar isso, mas aqui está como fazer funcionar:

xml ed -d '//_:entry[not(contains(_:title,"Project Foo"))]' < youtube_rss.xml

Mais sobre esse problema de namespace aqui:http://xmlstar.sourceforge.net/doc/UG/ch05.html

Answer 1