ウェブページにJavaScriptが埋め込まれたPDFをダウンロードする方法

ウェブページにJavaScriptが埋め込まれたPDFをダウンロードする方法

より具体的には、「http://krishikosh.egranth.ac.in」からの論文のリポジトリです。以前は IDM はすべての pdf リクエストをキャプチャできましたが、現在は一部のコーディングが変更されたため、アクセスできなくなりました。ネットワーク タブにアクセスすると、pdf.worker.js の下に XHR ファイルとして表示されます。

トライアルリンクはこちら

http://krishikosh.egranth.ac.in/displaybitstream?handle=1/5810062295

助けてください。

答え1

ご指摘のとおり、問題の Web サイトにはダウンロードを阻止する対策が講じられています。Web では、これは主に速度低下です。文書がインターネット上で閲覧可能な場合、閲覧中は文書がコンピュータ上に存在し、後で使用するために抽出することができます。

簡単な解決策の1つは、カール多くのオペレーティング システムで使用できるコマンドライン ツールである を使用し、それを Google Chrome 開発者ツールと組み合わせます。Chrome の [ネットワーク] タブでは、Web サイトで作成された PDF 読み込みから既製の curl コマンドを出力し、コマンド プロンプトに貼り付けることができます。

出力を最低限に抑えました。

curl 'https://krishikosh.egranth.ac.in/bitstream/1/5810062295/1/Anil%20Kumar%202601' \
  -X 'POST' \
  -H 'keyname: Akz914723960' \
  -H 'Content-Length: 0' \
  -H 'Type: application/pdf' \
  --output Document.pdf

この方法はウェブサイト上のすべての文書に適用されるわけではありませんが、指定されたPDFを自分のドライブに名前を付けたファイルにダウンロードしますDocument.pdf。ウェブサイトが使用する重要なセキュリティ対策は、キー名-ヘッダ。

関連情報