我正在嘗試一次抓取 1265 個 html 文件,以獲取網站上項目的名稱和描述。
我已獲得批發商的許可複製那裡的數據,但我不想花幾天時間只是為了獲取描述,那麼有沒有辦法以以下格式抓取數據?
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
和
<div id="CWproductInfo">
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
<p class="CWcontShop">
我想做的是複製之間的訊息
<div id="CWproductInfo"> and <p class="CWcontShop">
所以我只剩下
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
但如果可以將其放入電子表格中,一次可以從多個頁面中獲得更好的效果
答案1
為此,我會嘗試使用 Power Query 加載項 - 只要頁面及其 URL 一致,它就可以循環訪問網站頁面並從中提取資料。
這是一個例子:
http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/