sed を使用して RSS アイテムをフィルタリングする

Question

コメントで提案されているように、xmlstarletこれを解決するために使用してみましたが、うまくいきました。これが私のスクリプトです

xml ed -d '//item[not(contains(title,"Project Foo"))]' < sample_rss.xml

フィードコンテンツがファイルにあると仮定しますsample_rss.xml。そのコンテンツはにフィードされ、指定された XPath 式に一致するすべてのメモが削除されます。XPath 式は、テキストを含むノードを持たないをxml ed -d検索します。<item><title>"Project Foo"

これはうまく機能しているようで、実行時間にも非常に満足しています。

real    0m0.003s
user    0m0.001s
sys     0m0.002s

名前空間に注意

これを適切な RSS フィードまたは Atom フィードで動作させたい場合、 YouTube の次の例のように、feedに XML 名前空間 ( ) 属性が含まれていることに気付くでしょう。xmlns

<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns:yt="http://www.youtube.com/xml/schemas/2015" xmlns:media="http://search.yahoo.com/mrss/" xmlns="http://www.w3.org/2005/Atom">
   ...
</feed>

そうすると、上記のスクリプトは動作しなくなります。これを修正するのにかなり頭を悩ませましたが、動作させる方法は次のとおりです。

xml ed -d '//_:entry[not(contains(_:title,"Project Foo"))]' < youtube_rss.xml

この名前空間の問題の詳細については、こちらをご覧ください。http://xmlstar.sourceforge.net/doc/UG/ch05.html

Answer 1