我們如何下載網頁中嵌入了 javascript 的 PDF

我們如何下載網頁中嵌入了 javascript 的 PDF

更具體地說,來自“http://krishikosh.egranth.ac.in”,它是論文的存儲庫。以前 IDM 能夠捕獲所有 pdf 請求,但現在一些編碼已更改並且現在無法存取。到達網路標籤後,它確實將其顯示為 pdf.worker.js 下的 XHR 檔案。

這是試用連結

http://krishikosh.egranth.ac.in/displaybitstream?handle=1/5810062295

請幫忙。

答案1

正如您所提到的,相關網站採取了阻止下載的措施。在網路中,這主要是速度變慢。如果網路上有文件供您查看,則在查看期間該文件位於您的電腦上,並且可以提取以供以後使用。

簡單的解決方案之一是使用捲曲,一種在許多作業系統中可用的命令列工具,並將其與 Google Chrome 開發人員工具相結合。網路標籤中的 Chrome 可以從網站中製作的 PDF 載入中輸出現成的 curl 命令,以貼上到命令提示字元。

我將輸出減少到最低限度:

curl 'https://krishikosh.egranth.ac.in/bitstream/1/5810062295/1/Anil%20Kumar%202601' \
  -X 'POST' \
  -H 'keyname: Akz914723960' \
  -H 'Content-Length: 0' \
  -H 'Type: application/pdf' \
  --output Document.pdf

此方法並非通用於網站中的所有文檔,但會將指定的 PDF 下載到Document.pdf您自己的磁碟機上命名的文件中。該網站使用的關鍵安全措施是鍵名-標題。

相關內容