Я пытаюсь извлечь 1265 html-файлов одновременно, чтобы получить названия и описания товаров, которые есть на моем веб-сайте.
У меня есть разрешение от оптовика на копирование его данных, но я не хочу тратить дни только на получение описаний, так есть ли способ извлечь данные в следующем формате?
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
и
<div id="CWproductInfo">
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
<p class="CWcontShop">
то, что я хочу сделать, это скопировать информацию между
<div id="CWproductInfo"> and <p class="CWcontShop">
так что мне осталось
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
но с нескольких страниц одновременно еще лучше, если бы это можно было поместить в электронную таблицу
решение1
Я бы попробовал использовать для этого надстройку Power Query — она может проходить по страницам веб-сайта и извлекать из них данные, если страницы и их URL-адреса согласованы.
Вот пример:
http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/