Excel을 사용하여 온라인 커뮤니티에서 XPath 데이터 스크래핑

Question

Firefox/Firebug에 따르면 사용자 트위터 URL에 대한 고유 XPath는 다음과 같습니다.

/html/body/div[2]/div/div/div[1]/div/div[2]/a[1]

첫 번째 시도와는 약간 다릅니다. NB: 첫 번째 시도를 수정했습니다. /i끝에 있는 것을 원하지 않거나 <a>URL이 포함된 내부 요소를 얻지 못합니다.

그러나 두 번째 시도에서는 확실히 URL이 포함된 올바른 HTML 요소를 찾았으며 더욱 강력해졌습니다.

세 번째 시도는 속성 구문을 지원하지 않기 때문에 Google Docs ImportXML에서는 작동하지만 XPathOnUrl에서는 작동하지 않습니다.

Answer 1

Firefox/Firebug에 따르면 사용자 트위터 URL에 대한 고유 XPath는 다음과 같습니다.

/html/body/div[2]/div/div/div[1]/div/div[2]/a[1]

첫 번째 시도와는 약간 다릅니다. NB: 첫 번째 시도를 수정했습니다. /i끝에 있는 것을 원하지 않거나 <a>URL이 포함된 내부 요소를 얻지 못합니다.

그러나 두 번째 시도에서는 확실히 URL이 포함된 올바른 HTML 요소를 찾았으며 더욱 강력해졌습니다.

세 번째 시도는 속성 구문을 지원하지 않기 때문에 Google Docs ImportXML에서는 작동하지만 XPathOnUrl에서는 작동하지 않습니다.

관련 정보