Maneira correta de converter PDF em Word a partir da linha de comando do bash

Maneira correta de converter PDF em Word a partir da linha de comando do bash

Preciso converter arquivos PDF de 1K em documentos em um servidor Debian. Posso converter um PDF em Word usando a linha de comando do libreoffice:

libreoffice --headless --invisible --convert-to doc Sample-doc-file-100kb.pdf

Ou usando o escritório:

soffice --nocrashreport --nologo --nolockcheck --nofirststartwizard --invisible --headless --convert-to doc Sample-doc-file-100kb.pdf

O principal problema dos dois comandos acima é que o arquivo doc não inclui imagens nas páginas, contém apenas o texto formatado. Existe forma melhor de converter pdf em doc, incluindo também as imagens presentes no pdf? Não estou interessado em serviços web como o zamzam, preciso fazer isso na linha de comando do servidor. Obrigado.

Responder1

Você poderia tentar o software abiword. por exemplo:

abiword --to=doc exemplo.pdf

Responder2

Eu consegui fazer isso usando isso:

libreoffice --infilter=="writer_pdf_import" --headless \
--convert-to doc:"writer_pdf_Export" Brief.pdf  

Isso me dá o mesmo resultado da resposta de @igiannak.

Responder3

qualquer comando direto da interface de linha de comando está disponível com conversão de pdf para docx, incluindo imagens presentes no pdf e eu tentei os comandos libreoofice e soffice, ele estava fornecendo apenas texto formatado simples como qualquer outra biblioteca pywin32 com clinet está disponível no linux/ubuntu durante pdf para word conversão

importar sistema operacional importar sys

importar comtypes.client

wdFormatPDF = 17

def covx_to_pdf(infile, outfile): """Converta um Word .docx em PDF"""

word = comtypes.client.CreateObject('Word.Application')
doc = word.Documents.Open(infile)
doc.SaveAs(outfile, FileFormat=wdFormatPDF)
doc.Close()
word.Quit()

este código está funcionando na máquina Windows para conversão de pdf para word, mas este pacote não pode suportar plataformas linux/debian. podemos ter alguma sugestão para esta mesma implementação no Linux/debian para conversão de pdf para word

informação relacionada