Estoy intentando extraer 1265 archivos html a la vez para obtener el nombre y las descripciones de los elementos que tengo en un sitio web.
Tengo permiso del mayorista para copiar los datos, pero no quiero pasar días solo para obtener descripciones, entonces, ¿hay alguna manera de extraer los datos en el siguiente formato?
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
y
<div id="CWproductInfo">
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
<p class="CWcontShop">
lo que deseo hacer es copiar la información entre
<div id="CWproductInfo"> and <p class="CWcontShop">
entonces me quedo con
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
pero desde varias páginas a la vez, aún mejor si se pudiera incluir en una hoja de cálculo
Respuesta1
Probaría el complemento Power Query para esto: puede recorrer las páginas del sitio web y extraer datos de ellas, siempre que las páginas y sus URL sean consistentes.
He aquí un ejemplo:
http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/