Preciso converter arquivos PDF de 1K em documentos em um servidor Debian. Posso converter um PDF em Word usando a linha de comando do libreoffice:
libreoffice --headless --invisible --convert-to doc Sample-doc-file-100kb.pdf
Ou usando o escritório:
soffice --nocrashreport --nologo --nolockcheck --nofirststartwizard --invisible --headless --convert-to doc Sample-doc-file-100kb.pdf
O principal problema dos dois comandos acima é que o arquivo doc não inclui imagens nas páginas, contém apenas o texto formatado. Existe forma melhor de converter pdf em doc, incluindo também as imagens presentes no pdf? Não estou interessado em serviços web como o zamzam, preciso fazer isso na linha de comando do servidor. Obrigado.
Responder1
Você poderia tentar o software abiword. por exemplo:
abiword --to=doc exemplo.pdf
Responder2
Eu consegui fazer isso usando isso:
libreoffice --infilter=="writer_pdf_import" --headless \
--convert-to doc:"writer_pdf_Export" Brief.pdf
Isso me dá o mesmo resultado da resposta de @igiannak.
Responder3
qualquer comando direto da interface de linha de comando está disponível com conversão de pdf para docx, incluindo imagens presentes no pdf e eu tentei os comandos libreoofice e soffice, ele estava fornecendo apenas texto formatado simples como qualquer outra biblioteca pywin32 com clinet está disponível no linux/ubuntu durante pdf para word conversão
importar sistema operacional importar sys
importar comtypes.client
wdFormatPDF = 17
def covx_to_pdf(infile, outfile): """Converta um Word .docx em PDF"""
word = comtypes.client.CreateObject('Word.Application')
doc = word.Documents.Open(infile)
doc.SaveAs(outfile, FileFormat=wdFormatPDF)
doc.Close()
word.Quit()
este código está funcionando na máquina Windows para conversão de pdf para word, mas este pacote não pode suportar plataformas linux/debian. podemos ter alguma sugestão para esta mesma implementação no Linux/debian para conversão de pdf para word