どうすれば、（できれば）OSX を使って Web サイトからデータをスクレイピング/マイニング/誘導/操作できますか?

Question

wget次のコマンドを使うことができます。Mac OS X用にダウンロード可能ほとんどの Linux ディストリビューションに含まれており、Web サイトのコンテンツ全体、画像、CSS、JavaScript、ビデオ、Flash ファイルなどすべてをダウンロードできます。

入手したら、ターミナルを開きます。おそらく次のように呼び出すことになるでしょう:

wget -r -l0 -k http://www.example.com/

ダウンロードされますすべてリンクからアクセスできるようにhttp://www.example.com/します。この-rオプションは再帰ダウンロードをオンにするので、ホームページだけでなく他のページもダウンロードします。この-lオプションは、何ページ深くからリンクを探してダウンロードするかを設定します。0私が行ったようにに設定すると、できるだけ深くまで進むように設定されます。Web サイトが動的なページ生成を使用している場合、同じまたは非常に類似したコンテンツを指す URL が多数存在する可能性があるため、ダウンロード量が多くなる可能性があることに注意してください。-kコマンドはオプションで、wgetすべてのリンク、画像タグなどをローカルマシン上の正しい場所に変換して、コンピューターの Web ブラウザーで表示できるようにし、正しく機能するようにします。

ダウンロードできるのは、参考文献、他のドメインではありません。他のドメインに移動する必要がある場合は、スイッチを使用して-Hそれをオンにし、オプション-Dスイッチを使用してダウンロード元の他のドメインを定義します (例)。スイッチをオフにして /infiniteに設定すると、World Wide Web 全体をダウンロードしようとする可能性がある-D comments.example.com,beta.example.comため注意してください。-D-l0

役に立つかもしれないもう 1 つのスイッチは、-Nスイッチです。このスイッチは、ローカルファイルのタイムスタンプをサーバーの HTTP ヘッダーによって提供される時刻に設定しLast-Modified、後続のダウンロードでは変更されていないファイルをダウンロードしません。

詳細については、ドキュメントwget。

Answer 1