나는 웹사이트에 있는 항목의 이름과 설명을 얻기 위해 한 번에 1265개의 html 파일을 긁어내려고 합니다.
도매업자로부터 데이터를 복사할 수 있는 권한을 받았지만 설명을 얻기 위해 며칠을 보내고 싶지 않습니다. 그렇다면 다음 형식으로 데이터를 긁어낼 수 있는 방법이 있습니까?
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
그리고
<div id="CWproductInfo">
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
<p class="CWcontShop">
내가 하고 싶은 일은 다음과 같은 정보를 복사하는 것입니다.
<div id="CWproductInfo"> and <p class="CWcontShop">
그래서 나한테는 남은 게 있어
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
하지만 여러 페이지를 동시에 스프레드시트에 넣을 수 있다면 더 좋습니다.
답변1
이를 위해 파워 쿼리 추가 기능을 사용해 보겠습니다. 페이지와 해당 URL이 일관적이라면 웹 사이트 페이지를 반복하여 데이터를 추출할 수 있습니다.
예는 다음과 같습니다.
http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/