Веб-скрапинг/сканирование определенного веб-сайта

Веб-скрапинг/сканирование определенного веб-сайта

Я пытаюсь извлечь 1265 html-файлов одновременно, чтобы получить названия и описания товаров, которые есть на моем веб-сайте.
У меня есть разрешение от оптовика на копирование его данных, но я не хочу тратить дни только на получение описаний, так есть ли способ извлечь данные в следующем формате?

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

и

    <div id="CWproductInfo">


 <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
                <p class="CWcontShop">

то, что я хочу сделать, это скопировать информацию между

  <div id="CWproductInfo"> and <p class="CWcontShop">

так что мне осталось

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

  <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />

но с нескольких страниц одновременно еще лучше, если бы это можно было поместить в электронную таблицу

решение1

Я бы попробовал использовать для этого надстройку Power Query — она может проходить по страницам веб-сайта и извлекать из них данные, если страницы и их URL-адреса согласованы.

Вот пример:

http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/

Связанный контент