control de versiones de archivos PDF con anotaciones

control de versiones de archivos PDF con anotaciones

Tengo muchos archivos PDF importantes. La única forma de modificarlos es agregar/eliminar anotaciones. ¿Existe una manera eficiente de tener control de versiones para dichos archivos? Quizás pueda usar herramientas estándar como SVN/Git. Escuché que SVN solo almacena deltas incluso para archivos binarios. En el caso de SVN/GIT, ¿las deltas serían enormes si todo lo que hiciera fuera cambiar las anotaciones en un archivo PDF? Supongo que no serán enormes, pero no estoy seguro de cómo se almacenan las anotaciones en los archivos PDF y de qué tan inteligentes son los algoritmos delta.

Respuesta1

En un proyecto activo, usamos git para realizar la distribución y el control de versiones. Algunos de los archivos son PDF y funciona bastante bien. Como se ha dicho, no hay forma de hacer deltas.

Sin embargo, una posibilidad que podría funcionar con deltas sería exportar los comentarios, que aparecen como FDF, y luego realizar el control de versiones con estos archivos de exportación. Los FDF pueden, si los comentarios no son demasiado grandes, ser archivos de texto plano; Sin embargo, tendrías que realizar pruebas.

Respuesta2

Puede descomprimir archivos PDF conuna serie de herramientas(qpdf, pdftk, mutool, cpdf). Por ejemplo:

pdftk original.pdf output uncompressed.pdf uncompress

Esto debería proporcionarle el PDF en un formato en el que pueda ver y diferenciar las anotaciones como texto sin formato. El archivo descomprimido normalmente estará formado en gran medida por caracteres ASCII, pero aún puede contener datos binarios. Tendría que probar cómo funciona con el software de control de versiones de su elección y si funciona bien con los datos binarios "incrustados".

La pregunta es qué sucede cuando modificas las anotaciones (supongo que con un editor GUI), guardas el archivo y lo descomprimes. Si tiene suerte, el archivo será prácticamente el mismo excepto por las anotaciones, pero eso no está garantizado. Tendrás que elegir sabiamente tu combinación de software.

Respuesta3

No conozco ninguna versión nativa con archivos PDF (ni tampoco mi búsqueda en Google). Los archivos PDF (según wikipedia) son binarios. El almacenamiento delta solo funciona con archivos de texto (como archivos de código fuente y archivos Léame).

Tengo experiencia en el uso de SVN y Git. Recomiendo usar Git, ya que tiene capacidades de compresión superiores y es un sistema de control de versiones distribuido. Subversion es un sistema de control de versiones centralizado, lo que significa que necesita un servidor para ejecutarlo. Podrías instalar el software del servidor SVN en tu computadora, pero probablemente no valga la pena. Los sistemas de control de versiones distribuidos funcionan a través de repositorios locales (es decir, no se requiere servidor).

información relacionada