網路抓取/抓取特定網站

網路抓取/抓取特定網站

我正在嘗試一次抓取 1265 個 html 文件,以獲取網站上項目的名稱和描述。
我已獲得批發商的許可複製那裡的數據,但我不想花幾天時間只是為了獲取描述,那麼有沒有辦法以以下格式抓取數據?

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

    <div id="CWproductInfo">


 <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
                <p class="CWcontShop">

我想做的是複製之間的訊息

  <div id="CWproductInfo"> and <p class="CWcontShop">

所以我只剩下

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

  <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />

但如果可以將其放入電子表格中,一次可以從多個頁面中獲得更好的效果

答案1

為此,我會嘗試使用 Power Query 加載項 - 只要頁面及其 URL 一致,它就可以循環訪問網站頁面並從中提取資料。

這是一個例子:

http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/

相關內容