
http://www.rediff.com/news
아래 <a>
태그 에서 링크를 추출하고 싶습니다.
<a href="http://www.rediff.com/news" onclick="trackURL('http://track.rediff.com/click?url=___http://www.rediff.com/news___&cmp=news1_nav&lnk=news1_nav&nsrv1=ushome');return false;"><div class="n_tabnormal">News</div></a>
일부 Unix 명령을 사용합니다. 이를 위해 하드 코딩을 하지 마십시오.
답변1
XML/HTML 파서를 사용하는 것은 XML/HTML 데이터를 조작하는 올바른 방법입니다.
xmlstarlet해결책:
sed 's/&/&/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n
출력:
http://www.rediff.com/news
sed 's/&/&/g'
&
- 특수 문자인 앰퍼샌드를 HTML 엔터티로 변환합니다.//a[div/text() = "News"]/@href
- xpath 표현식, 텍스트가 있는 하위 노드가 있는 경우 태그href
의 속성 값을 추출합니다.a
div
News