ドメイン フォルダー内のすべてのファイルをダウンロードする必要がありますhttps://example.com/folder/subfolder
。サブフォルダーのファイルには一意の増分がないため、ファイル名はランダムな文字列です。wget またはその他の方法を使用して、サブフォルダー内のすべてのファイルをダウンロードしたいと思います。詳細を教えてください。
私は答えを試したここ. index.html ファイルのみがダウンロードされます。その回答にある --reject オプションを使用して他のオプションを試しましたが、何もダウンロードされませんでした。
答え1
私の知る限り、wget
以下のリンクでのみ機能します:
明示的に標準
href
属性を持ちます。特定のHTML文書(サーバーが生成するものなので、技術的にダウンロード可能なファイルが常にリストされるとは限りません
wget
。
wget
さらに、生のページ ソース (たとえば、ブラウザー内) を確認する必要があります。ページで JavaScript が使用されている場合は、 JavaScript が処理されないため、運が悪い可能性があります。
リンクが生のHTMLにリストされていても、標準href
属性がない場合でも、ページを解析してリンクを探すことはできますが、 ではできませんwget
。Windows PowerShellやパイソン(おそらくリクエスト) そして美しいスープ。
まれに、リンクが完全にJavaScriptで生成される場合は、セレンファイルリンクを処理する前に、完全にレンダリングされたページを保存する。Pythonにはセレンモジュール私は個人的に、スタンドアロンの「Marmaduke」ビルド(zipファイル)で良い結果を得ました。Woolyss の Ungoogled Chromiumブラウザの自動化用。