ウェブサイトにある商品の名前と説明を取得するために、一度に 1265 個の HTML ファイルをスクレイピングしようとしています。
卸売業者からデータをコピーする許可を得ていますが、説明を取得するためだけに何日も費やしたくありません。次の形式でデータをスクレイピングする方法はありますか?
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
そして
<div id="CWproductInfo">
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
<p class="CWcontShop">
私がやりたいのは、情報をコピーすることです
<div id="CWproductInfo"> and <p class="CWcontShop">
だから私は
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
複数のページから一度にスプレッドシートに取り込めればさらに良い
答え1
これには Power Query アドインを試してみることをお勧めします。ページとその URL が一貫している限り、Web サイトのページをループしてそこからデータを抽出できます。
次に例を示します。
http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/