sed를 사용하여 RSS 항목 필터링

Question

의견에서 제안한 대로 xmlstarlet이 문제를 해결하기 위해 사용해 보았지만 잘 작동합니다. 여기 내 스크립트가 있습니다

xml ed -d '//item[not(contains(title,"Project Foo"))]' < sample_rss.xml

피드 콘텐츠가 파일에 있다고 가정해 보겠습니다 sample_rss.xml. 해당 콘텐츠는 에 공급되어 xml ed -d지정된 XPath 표현식과 일치하는 모든 메모를 삭제합니다. XPath 표현식은 텍스트를 포함하는 <item> 노드가 없는 항목을 찾습니다 .<title>"Project Foo"

이것은 잘 작동하는 것 같고 실행 시간에도 매우 만족합니다.

real    0m0.003s
user    0m0.001s
sys     0m0.002s

네임스페이스에 주의하세요

적절한 RSS 또는 Atom 피드를 사용하여 이 작업을 수행하려면 YouTube의 다음 예와 같이 feedXML 네임스페이스( ) 속성이 포함되어 있음 을 알 수 있습니다.xmlns

<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns:yt="http://www.youtube.com/xml/schemas/2015" xmlns:media="http://search.yahoo.com/mrss/" xmlns="http://www.w3.org/2005/Atom">
   ...
</feed>

그러면 위 스크립트가 더 이상 작동하지 않습니다! 이 문제를 해결하는 데 상당한 골치 아픈 일이 발생했지만 작동시키는 방법은 다음과 같습니다.

xml ed -d '//_:entry[not(contains(_:title,"Project Foo"))]' < youtube_rss.xml

이 네임스페이스 문제에 대한 자세한 내용은 여기를 참조하세요.http://xmlstar.sourceforge.net/doc/UG/ch05.html

Answer 1