Bash 명령줄에서 PDF를 단어로 변환하는 올바른 방법

Bash 명령줄에서 PDF를 단어로 변환하는 올바른 방법

1K PDF 파일을 데비안 서버의 문서로 변환해야 합니다. libreoffice 명령줄을 사용하여 PDF를 단어로 변환할 수 있습니다.

libreoffice --headless --invisible --convert-to doc Sample-doc-file-100kb.pdf

또는 사무실을 사용하여:

soffice --nocrashreport --nologo --nolockcheck --nofirststartwizard --invisible --headless --convert-to doc Sample-doc-file-100kb.pdf

위 두 명령의 주요 문제점은 doc 파일이 페이지에 이미지를 포함하지 않고 형식화된 텍스트만 포함한다는 것입니다. PDF에 있는 이미지를 포함하여 PDF를 doc로 변환하는 더 좋은 방법이 있습니까? 저는 zamzam과 같은 웹 서비스에 관심이 없습니다. 서버의 명령줄에서 해당 작업을 수행해야 합니다. 감사합니다.

답변1

abiword 소프트웨어를 사용해 볼 수 있습니다. 예:

abiword --to=doc example.pdf

답변2

나는 이것을 사용하여 그것을 수행했습니다.

libreoffice --infilter=="writer_pdf_import" --headless \
--convert-to doc:"writer_pdf_Export" Brief.pdf  

@igiannak의 답변과 동일한 결과를 제공합니다.

답변3

모든 직접 명령줄 인터페이스 명령은 pdf에 있는 이미지를 포함하여 pdf에서 docx로 변환하는 데 사용할 수 있으며 libreoofice 및 soffice 명령을 시도했는데 다른 pywin32 com 클라인넷 라이브러리와 같이 간단한 형식의 텍스트만 제공하고 있었고 pdf에서 word로 변환하는 동안 linux/ubuntu에서 사용할 수 있었습니다. 변환

OS 가져오기 시스템 가져오기

comtypes.client 가져오기

wdFormatPDF = 17

def covx_to_pdf(infile, outfile): """Word .docx를 PDF로 변환"""

word = comtypes.client.CreateObject('Word.Application')
doc = word.Documents.Open(infile)
doc.SaveAs(outfile, FileFormat=wdFormatPDF)
doc.Close()
word.Quit()

이 코드는 Windows 시스템에서 pdf를 단어로 변환하는 데 사용되지만 이 패키지는 Linux/debian 플랫폼을 지원할 수 없습니다. Linux/debian에서 pdf를 단어로 변환하는 것과 동일한 구현에 대한 제안이 있습니까?

관련 정보