Ich arbeite derzeit an einem Web Scraping-Projekt in NodeJS mit Puppeteer. Ich muss bei jeder Anfrage Proxys verwenden und rotieren, um zu vermeiden, dass ich von der Website blockiert werde.
Puppeteer erlaubt jedoch nur einen Proxy pro Browserstart, der nicht geändert werden kann, ohne den Browser neu zu starten. Das Neustarten des Browsers bei jeder Anforderung würde das Skript erheblich zeitaufwändiger machen.
Ich habe mich also gefragt, ob das möglich ist und wie ich einen lokalen Proxyserver schreiben könnte, der jede Anfrage an eine zufällige Up-Adresse aus einer Liste umleitet. Die Sprache für den Proxyserver muss natürlich nicht NodeJS sein. Ich dachte daran, vielleicht Python und die Proxy Broker-Bibliothek zu verwenden, aber ich bin mir nicht sicher, wie ich das anstellen soll.
Antwort1
Es gibt dieses Python-Projekt, das dies tut:ProxyBroker
Dieses Projekt ermöglicht Proxy [Finder | Checker | Server]. HTTP(S) und SOCKS: