Verwenden von sed zum Filtern von RSS-Elementen

Question

Wie in den Kommentaren vorgeschlagen, habe ich versucht, xmlstarletdieses Problem zu lösen, und es funktioniert gut. Hier ist mein Skript

xml ed -d '//item[not(contains(title,"Project Foo"))]' < sample_rss.xml

Nehmen wir an, der Feed-Inhalt befindet sich in der Datei sample_rss.xml. Dieser Inhalt wird in eingespeist xml ed -d, wodurch alle Notizen gelöscht werden, die dem angegebenen XPath-Ausdruck entsprechen. Der XPath-Ausdruck sucht nach allen <item> , die keinen Knoten haben <title>, der den Text enthält "Project Foo".

Dies scheint gut zu funktionieren und ich bin auch mit der Ausführungszeit sehr zufrieden:

real    0m0.003s
user    0m0.001s
sys     0m0.002s

Vorsicht bei Namespaces

Wenn Sie dies mit richtigen RSS- oder Atom-Feeds zum Laufen bringen möchten, bemerken Sie möglicherweise, dass es feedein XML-Namespace- xmlnsAttribut () enthält, genau wie in diesem Beispiel von YouTube:

<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns:yt="http://www.youtube.com/xml/schemas/2015" xmlns:media="http://search.yahoo.com/mrss/" xmlns="http://www.w3.org/2005/Atom">
   ...
</feed>

Dann funktioniert das obige Skript nicht mehr! Es hat mir ziemliche Kopfschmerzen bereitet, es zu reparieren, aber so kann ich es wieder zum Laufen bringen:

xml ed -d '//_:entry[not(contains(_:title,"Project Foo"))]' < youtube_rss.xml

Mehr zu diesem Namespace-Problem hier:http://xmlstar.sourceforge.net/doc/UG/ch05.html

Answer 1