
有什麼方法可以測試pdf
文件的超連結嗎?假設我有一個pdf
包含大量超連結的文件,我可以自動測試點擊這些連結時的回應(200
= ok、404
= not find 等)。
我知道網頁上有這樣的工具(作為軟體,例如KLink狀態,或作為網路服務,例如W3C 的檢查鏈接)但是有沒有等價的pdf
?我猜沒有這樣的東西,tex
文件有什麼好的等價物嗎?我想這可以透過一些腳本和正規表示式魔法來完成,但我想知道是否有任何現有的解決方案。
\documentclass{article}
\usepackage{hyperref}
\begin{document}
\href{http://tex.stackexchange.com/test-404/}{This will give a 404}
\href{http://tex.stackexchange.com/}{This will give a 200}
\end{document}
答案1
安裝curl(假設您使用apt-get來安裝軟體包):
sudo apt-get install curl
並對 pdf 檔案執行以下操作:
cat document.pdf | grep -ao '[a-zA-Z]\+://[a-zA-Z.-]*[^)]\+' | while read LINE; do curl -o /dev/null --silent --head --write-out '%{http_code}' "$LINE"; echo " $LINE"; done
並對 tex 檔案執行以下操作:
cat myfile.tex | grep -o '{[a-zA-Z]\+://[a-zA-Z.-]*[^}]\+}' | sed s/{// | sed s/}// | while read LINE; do curl -o /dev/null --silent --head --write-out '%{http_code}' "$LINE" echo " $LINE" done
將以下內容複製並貼上到命令列以立即測試:
echo "\documentclass{article}
\usepackage{hyperref}
\begin{document}
\href{http://tex.stackexchange.com/test-404/}{This will give a 404}
\href{http://tex.stackexchange.com/}{This will give a 200}
\end{document}" | grep -o '{[a-zA-Z]\+://[a-zA-Z.-]*[^}]\+}' | sed s/{// | sed s/}// | while read LINE; do
curl -o /dev/null --silent --head --write-out '%{http_code}' "$LINE"
echo " $LINE"
done
詳細請參考以下內容:
https://stackoverflow.com/questions/13611973/how-to-grep-for-a-url-in-a-file https://stackoverflow.com/questions/6136022/script-to-get-the-http-status-code-of-a-list-of-urls
答案2
如果您願意使用 Python,這可能就足夠了。
我將 python 與 pyPdf 和 urllib2 套件一起使用。邏輯是這樣的:使用 pyPdf.PdfFileReader 打開 pdf 並循環遍歷它。在下面的函數中,pdf
是開啟的pdf文件物件。
def get_urls(pdf):
badurls = list()
links = list()
url_checker = URLChecker() # a helper function to test the URL (urllib2)
for pg in range(pdf.getNumPages()):
page = pdf.getPage(pg)
obj = page.getObject()
for a in obj.get('/Annots', []):
u = a.getObject()
lnk = u['/A'].get('/D')
url = u['/A'].get('/URI')
if lnk:
links.append(lnk)
if url:
urls.append(url)
result, reason = url_checker.check(url)
if not result:
badurls.append({'url':url, 'reason': '%r' % reason})
anchors = pdf.getNamedDestinations().keys()
badlinks = [x for x in links if x not in anchors]
return urls, badurls, badlinks
打開url_checker
url,如果有錯誤,則返回(False, error_string)
。否則返回(True, None)
因此,在流程結束時,您將獲得 pdf 中的 url 清單、無法開啟的所有錯誤 url(包含原因)、PDF 中的連結清單以及無法開啟的連結的子集。
我省略了 url_checker 的邏輯,但它非常簡單。有多種方法可以完成該部分——您也可以使用requests
包而不是urllib2
.
答案3
使用 Qt4 和 Poppler 的簡單 C++ 程式就可以解決這個問題。我很快就畫出了它的草圖,並在一些 PDF 上進行了測試。我認為人們可以對它進行很多調整,以使其對諸如 mailto: -protocol 和其他連接埠之類的奇怪連結更加強大。當然,如果您需要事後解析它,輸出格式可能會更好,但它確實有效
#include <QTcpSocket>
#include <QUrl>
#include <QByteArray>
#include <QList>
#include <poppler-qt4.h>
#include <QDebug>
using namespace Poppler;
QString urlGetStatus(const QUrl &url) {
QString status;
QTcpSocket socket;
socket.connectToHost(url.host(), 80);
if (socket.waitForConnected()) {
socket.write("HEAD " + url.path().toUtf8() + " HTTP/1.1\r\n"
"Host: " + url.host().toUtf8() + "\r\n"
"\r\n");
if (socket.waitForReadyRead()) {
QByteArray bytes = socket.readAll();
status = QString(bytes).mid(9, 3);
}
}
return status;
}
int main(int argc, char *argv[]) {
if(argc < 2) {
return 1;
}
QString path = QString(argv[1]);
Document *doc = Document::load(path);
if(doc == NULL)
return 1;
QList<QUrl> urlList;
for(int i = 0;i < doc->numPages(); i++) {
Page *p = doc->page(i);
foreach(Link *li,p->links()) {
if(li->linkType() == Link::Browse) {
LinkBrowse *link = static_cast<LinkBrowse*>(li);
urlList.append(QUrl(link->url()));
}
}
}
foreach(QUrl url, urlList) {
QString stat = urlGetStatus(url);
if(stat == "200") {
qDebug() << url.toString() << "returned status 200";
} else {
qDebug() << url.toString() << " maybe not reachable status" << stat;
}
}
return 0;
}
由於我是 cmake 朋友,我使用這個 CMakeLists.txt 進行編譯:
cmake_minimum_required(VERSION 2.6)
project(qlinkextract)
set (CMAKE_MODULE_PATH "${PROJECT_SOURCE_DIR}/cmake/Modules/")
find_package(Qt4 REQUIRED QtCore QtNetwork)
include(${QT_USE_FILE})
find_package(Poppler REQUIRED)
include_directories(${POPPLER_QT_INCLUDE_DIR})
add_executable(qlinkextract main.cpp)
target_link_libraries(qlinkextract ${QT_LIBRARIES} ${POPPLER_QT_LIBRARIES})
您將需要 Qt4 開發包和 Poppler-Qt4 開發包。如果您的 CMakeModules 目錄中沒有 FindPoppler.cmake,請在線獲取一個。
要編譯它,請確保在專案目錄中 qlinkextract 是(需要完全拼寫如下)
- CMakeLists.txt(見上文)
- main.cpp(見上)
- cmake/Modules/FindPoppler.cmake(從某處下載)
- build/(資料夾是可選的)
在控制台上轉到構建資料夾並輸入
cmake ..
make
如果缺少某些東西,請安裝缺少的軟體包
一些範例輸出:
"http://www.igi-global.com/chapter/ontology-based-multimedia-indexing/42895?camid=4v1" returned status 200
"http://www.igi-global.com/chapter/ontology-based-multimedia-indexing/42895?camid=4v1" returned status 200
"http://www.igi-global.com/e-resources/library-recommendation/?id=1" returned status 200
"http://www.igi-global.com/chapter/towards-low-cost-energy-monitoring/112719?camid=4v1a" returned status 200
"http://www.igi-global.com/article/algebraic-properties-of-rough-set-on-two-universal-sets-based-on-multigranulation/116046?camid=4v1a" returned status 200
"http://www.igi-global.com/article/algebraic-properties-of-rough-set-on-two-universal-sets-based-on-multigranulation/116046?camid=4v1a" returned status 200
"http://www.igi-global.com/article/fuzzy-decision-support-system-for-coronary-artery-disease-diagnosis-based-on-rough-set-theory/111313?camid=4v1a" returned status 200
"http://www.igi-global.com/article/fuzzy-decision-support-system-for-coronary-artery-disease-diagnosis-based-on-rough-set-theory/111313?camid=4v1a" returned status 200
"http://www.igi-global.com/chapter/optimization-model-identification-temperature-intelligent/74536?camid=4v1a" returned status 200
"http://www.igi-global.com/chapter/optimization-model-identification-temperature-intelligent/74536?camid=4v1a" returned status 200