웹 스크래핑/특정 웹사이트 크롤링

웹 스크래핑/특정 웹사이트 크롤링

나는 웹사이트에 있는 항목의 이름과 설명을 얻기 위해 한 번에 1265개의 html 파일을 긁어내려고 합니다.
도매업자로부터 데이터를 복사할 수 있는 권한을 받았지만 설명을 얻기 위해 며칠을 보내고 싶지 않습니다. 그렇다면 다음 형식으로 데이터를 긁어낼 수 있는 방법이 있습니까?

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

그리고

    <div id="CWproductInfo">


 <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
                <p class="CWcontShop">

내가 하고 싶은 일은 다음과 같은 정보를 복사하는 것입니다.

  <div id="CWproductInfo"> and <p class="CWcontShop">

그래서 나한테는 남은 게 있어

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

  <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />

하지만 여러 페이지를 동시에 스프레드시트에 넣을 수 있다면 더 좋습니다.

답변1

이를 위해 파워 쿼리 추가 기능을 사용해 보겠습니다. 페이지와 해당 URL이 일관적이라면 웹 사이트 페이지를 반복하여 데이터를 추출할 수 있습니다.

예는 다음과 같습니다.

http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/

관련 정보