從 bash 命令列將 PDF 轉換為 Word 的正確方法

從 bash 命令列將 PDF 轉換為 Word 的正確方法

我需要在 debian 伺服器上將 1K pdf 檔案轉換為 doc。我可以使用 libreoffice 命令列將 PDF 轉換為 Word:

libreoffice --headless --invisible --convert-to doc Sample-doc-file-100kb.pdf

或使用soffice:

soffice --nocrashreport --nologo --nolockcheck --nofirststartwizard --invisible --headless --convert-to doc Sample-doc-file-100kb.pdf

上述兩個命令的主要問題是文件文件不包含頁面中的圖像,它只包含格式化的文字。有沒有更好的方法將 pdf 轉換為 doc,包括 pdf 中存在的圖像?我對像 zamzam 這樣的 Web 服務不感興趣,我需要從伺服器上的命令列執行此操作。謝謝。

答案1

你可以試試abiword軟體。例如:

abiword --to=doc 範例.pdf

答案2

我設法用這個來做到這一點:

libreoffice --infilter=="writer_pdf_import" --headless \
--convert-to doc:"writer_pdf_Export" Brief.pdf  

它給我的輸出與 @igiannak 的答案相同。

答案3

任何直接命令列介面命令都可用於pdf 到docx 轉換,包括pdf 中存在的圖像,我嘗試了libreoofice 和soffice 命令,它只提供簡單格式的文本,就像任何其他pywin32 com clinet 庫在pdf 到word 期間可在linux/ubuntu 上使用轉換

導入作業系統導入系統

導入 comtypes.client

wd格式PDF = 17

def covx_to_pdf(infile, outfile): """將 Word .docx 轉換為 PDF"""

word = comtypes.client.CreateObject('Word.Application')
doc = word.Documents.Open(infile)
doc.SaveAs(outfile, FileFormat=wdFormatPDF)
doc.Close()
word.Quit()

此程式碼可在 Windows 機器上進行 pdf 到 word 的轉換,但此軟體包不支援 linux/debian 平台。

相關內容