Использование sed для фильтрации элементов RSS

Question

Как и предлагалось в комментариях, я попробовал использовать xmlstarletдля решения этой проблемы, и это работает хорошо. Вот мой скрипт

xml ed -d '//item[not(contains(title,"Project Foo"))]' < sample_rss.xml

Предположим, что содержимое фида находится в файле sample_rss.xml. Это содержимое передается в xml ed -d, что удаляет любую заметку, соответствующую заданному выражению XPath. Выражение XPath ищет любую, <item> которая не имеет узла <title>, содержащего текст "Project Foo".

Кажется, это работает хорошо, и я также очень доволен временем выполнения:

real    0m0.003s
user    0m0.001s
sys     0m0.002s

Остерегайтесь пространств имен

Если вы хотите, чтобы это работало с правильными каналами RSS или Atom, вы можете заметить, что feedсодержит атрибут XML Namespace ( xmlns), как в этом примере с YouTube:

<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns:yt="http://www.youtube.com/xml/schemas/2015" xmlns:media="http://search.yahoo.com/mrss/" xmlns="http://www.w3.org/2005/Atom">
   ...
</feed>

Тогда скрипт выше больше не будет работать! Мне пришлось изрядно помучиться, чтобы его исправить, но вот как заставить его работать:

xml ed -d '//_:entry[not(contains(_:title,"Project Foo"))]' < youtube_rss.xml

Подробнее об этой проблеме пространства имен можно узнать здесь:http://xmlstar.sourceforge.net/doc/UG/ch05.html

Answer 1