Web scraping/rastreamento de um site específico

Web scraping/rastreamento de um site específico

Estou tentando extrair 1.265 arquivos HTML de uma vez para obter o nome e as descrições dos itens que tenho em um site.
Tenho permissão do atacadista para copiar os dados, mas não quero passar dias apenas para obter descrições. Existe uma maneira de copiar os dados no seguinte formato?

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

e

    <div id="CWproductInfo">


 <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
                <p class="CWcontShop">

o que eu desejo fazer é copiar as informações entre

  <div id="CWproductInfo"> and <p class="CWcontShop">

então eu fiquei com

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

  <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />

mas de várias páginas ao mesmo tempo, melhor ainda se puder ser colocado em uma planilha

Responder1

Eu tentaria o suplemento Power Query para isso - ele pode percorrer as páginas do site e extrair dados delas, desde que as páginas e seus URLs sejam consistentes.

Aqui está um exemplo:

http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/

informação relacionada