Ich versuche, 1265 HTML-Dateien auf einmal zu scrapen, um Namen und Beschreibungen von Artikeln zu erhalten, die ich auf einer Website habe.
Ich habe die Erlaubnis des Großhändlers, dessen Daten zu kopieren, aber ich möchte nicht Tage damit verbringen, nur Beschreibungen zu erhalten. Gibt es also eine Möglichkeit, die Daten im folgenden Format zu scrapen?
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
Und
<div id="CWproductInfo">
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
<p class="CWcontShop">
was ich tun möchte, ist, die Informationen zu kopieren zwischen
<div id="CWproductInfo"> and <p class="CWcontShop">
also bleibt mir nur
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
aber von mehreren Seiten auf einmal, noch besser, wenn es in eine Tabelle eingefügt werden könnte
Antwort1
Ich würde hierfür das Power Query-Add-In ausprobieren – es kann eine Schleife über Webseiten ausführen und Daten daraus extrahieren, solange die Seiten und ihre URLs konsistent sind.
Hier ist ein Beispiel:
http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/