ウェブページのすべてのソースファイルをダウンロードする

ウェブページのすべてのソースファイルをダウンロードする

データベース検索エンジンの Web ページのソース ファイルをダウンロードしたいのですが、curl を使用すると、メインの HTML ページしかダウンロードできません。また、Web ページにリンクされ、メインの HTML ページに記載されているすべての JavaScript ファイル、CSS ファイル、および PHP ファイルもダウンロードしたいと思います。これは、curl/wget または他のユーティリティを使用して実行できますか?

答え1

まず、ウェブサイト運営者に、これがサービスの利用方法として適切かどうか確認する必要があります。その後、次の操作を実行できます。

wget -pk example.com

-pページを表示するための要件 (Javascript、CSS など) を取得します。-kページ上のリンクをローカル表示に使用できるものに変換します。

からman wget

-p, --ページ要件

このオプションにより、Wget は特定の HTML ページを適切に表示するために必要なすべてのファイルをダウンロードします。これには、インライン画像、サウンド、参照されるスタイルシートなどが含まれます。

[...]

-k, --convert-links

ダウンロードが完了したら、ドキュメント内のリンクをローカルでの表示に適した形式に変換します。これは、表示されているハイパーリンクだけでなく、埋め込まれた画像、スタイルシートへのリンク、HTML 以外のコンテンツへのハイパーリンクなど、外部コンテンツにリンクするドキュメントのあらゆる部分にも影響します。

関連情報