特定のウェブサイトのウェブスクレイピング/クロール

特定のウェブサイトのウェブスクレイピング/クロール

ウェブサイトにある商品の名前と説明を取得するために、一度に 1265 個の HTML ファイルをスクレイピングしようとしています。
卸売業者からデータをコピーする許可を得ていますが、説明を取得するためだけに何日も費やしたくありません。次の形式でデータをスクレイピングする方法はありますか?

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

そして

    <div id="CWproductInfo">


 <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
                <p class="CWcontShop">

私がやりたいのは、情報をコピーすることです

  <div id="CWproductInfo"> and <p class="CWcontShop">

だから私は

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

  <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />

複数のページから一度にスプレッドシートに取り込めればさらに良い

答え1

これには Power Query アドインを試してみることをお勧めします。ページとその URL が一貫している限り、Web サイトのページをループしてそこからデータを抽出できます。

次に例を示します。

http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/

関連情報