Necesito convertir archivos pdf de 1K a doc en un servidor Debian. Puedo convertir un PDF a Word usando la línea de comandos de LibreOffice:
libreoffice --headless --invisible --convert-to doc Sample-doc-file-100kb.pdf
O usando soffice:
soffice --nocrashreport --nologo --nolockcheck --nofirststartwizard --invisible --headless --convert-to doc Sample-doc-file-100kb.pdf
El principal problema con los dos comandos anteriores es que el archivo doc no incluye imágenes en las páginas, solo contiene el texto formateado. ¿Existe una mejor manera de convertir pdf a doc, incluidas también las imágenes presentes en el pdf? No estoy interesado en servicios web como zamzam, necesito hacerlo desde la línea de comandos del servidor. Gracias.
Respuesta1
Podrías probar el software abiword. p.ej:
abiword --to=doc ejemplo.pdf
Respuesta2
Logré hacerlo usando esto:
libreoffice --infilter=="writer_pdf_import" --headless \
--convert-to doc:"writer_pdf_Export" Brief.pdf
Me da el mismo resultado que la respuesta de @igiannak.
Respuesta3
cualquier comando de interfaz de línea de comando directa está disponible con conversión de pdf a docx, incluidas las imágenes presentes en el pdf, y probé los comandos de libreoofice y soffice. Solo daba texto con formato simple como cualquier otra biblioteca clinet de pywin32 com está disponible en Linux/ubuntu durante pdf a Word. conversión
importar sistema operativo importar sistema
importar tipos com.cliente
wdFormatoPDF = 17
def covx_to_pdf(archivo de entrada, archivo de salida): """Convertir un .docx de Word a PDF"""
word = comtypes.client.CreateObject('Word.Application')
doc = word.Documents.Open(infile)
doc.SaveAs(outfile, FileFormat=wdFormatPDF)
doc.Close()
word.Quit()
Este código funciona en una máquina Windows para la conversión de PDF a Word, pero este paquete no es compatible con plataformas Linux/Debian. ¿Podemos tener alguna sugerencia para esta misma implementación en Linux/Debian para la conversión de PDF a Word?