¿Cómo arreglar/reparar un PDF dañado?

¿Cómo arreglar/reparar un PDF dañado?

Tenía un libro (PDF) en Apple Books a partir de archivos locales en el iPad. Tenía 2 meses de notas en el PDF.

Hoy no pude abrirlo y me sale un error:

"No se puede abrir el documento. No se puede abrir '' "

Así que descarté el archivo en una Mac, intenté abrirlo en Vista previa, Adobe y Acrobat. En todos los lugares donde probé el archivo, no se puede abrir. Podría estar corrupto o dañado.

Intenté usar Ghostscript ( gs) para repararlo, pero no funcionó:

gs \
 -o repaired.pdf \
 -sDEVICE=pdfwrite \
 -dPDFSETTINGS=/prepress \
  corrupted.pdf

En su lugar, aparece un error:

Catalog dictionary not located in file, unable to proceed


**** Error: Couldn't initialise file.
               Output may be incorrect.



No pages will be processed (FirstPage > LastPage).

The following errors were encountered at least once while processing this file:
    startxref offset invalid
    xref table was repaired

   **** This file had errors that were repaired or ignored.
   **** Please notify the author of the software that produced this
   **** file that it does not conform to Adobe's published PDF
   **** specification.

Intenté actualizar el iPad y reiniciar, nada parece solucionarlo.

El archivo tiene aproximadamente 150 MB. ¿Qué puedo hacer para recuperarlo?

Respuesta1

He sido un niño y un hombre manejando datos informáticos durante 59 años y medio y durante los últimos 40 resolviendo problemas de pérdida de datos en varios niveles, desde interruptores y relés poco fiables, cintas de papel rotas y tarjetas apolilladas, cintas y cables estirados, discos doblados o enloquecidos. y chips en hojuelas. Algunas historias asombrosas no las puedo contar, o dudarías de mi cordura o de las personas que me contrataron o de quienes infectaron sus datos.

Así que el primer consejo es descartar la causa, incluso si se trata del trillado "¿Apagaste en la pared?"

El siguiente paso es evaluar las posibilidades de recuperación versus el costo de hacerlo nuevamente.

Así que este fue un desafío interesante y las respuestas no son buenas.

Si cree que existe la posibilidad de que el dispositivo de edición tenga una copia eliminada oculta y el costo de reemplazo sea excepcionalmente alto. Entonces puede valer la pena pagar para que el dispositivo apagado se conecte de manera forense a un sistema de diagnóstico donde el disco se pueda duplicar y escanear en busca de %PDF-encabezados eliminados.

Los discos modernos tienden a no hacer eso posible (estado sólido) NI tan fácil como antes, al reutilizar el espacio liberado rápidamente para una gran memoria caché de almacenamiento, sobrescribiendo así los datos perdidos.

Ahora al centro del archivo guardado "Cuestionable".

Ha conservado gran parte de los datos deseados. SIN EMBARGO, en comparación con el archivo fuente sin editar, podemos decir que la pérdida fue muy significativa.

El PDF de origen ya había sido editado dos veces (¿una nueva portada? y un pequeño ajuste), por lo que tenía rarezas residuales (no inusuales pero que debían evitarse) para agregar diferentes ediciones.

core /Size 39679 objects  
edit /Size 39692  
edit /Size 39694  

Si reestructuro ese archivo fuente, el recuento de trabajo se optimiza como /Tamaño 37546 objetos. Indicando que hubo cierta redundancia, pero nuevamente no es inusual.

Las adiciones a lo largo de 2 meses deberían ser más de unas pocas por día, aumentando el recuento hasta 40.000 o más. Sin embargo, informa que era /Tamaño 70957. Confirmando en un momento, el archivo debería haber sido excesivamente grande. por lo tanto, los aproximadamente 32.000 elementos adicionales deben estar todos en el archivo retenido, pero es comparativamente más pequeño de lo requerido.

Como prueba (para mi comparación), recuperé solo una página de anotaciones (sin saber qué número de página cubría. Puede que no sea típico, pero equivale a aproximadamente 120 KB por página).

Puede que no tenga sentido aquí ya que no puede ver los componentes aquí fuera de contexto, pero es la última página de cambios (ver la fecha) presumiblemente en una página de la derecha.

ingrese la descripción de la imagen aquí

Podemos colocarlo sobre esa nueva portada (aún no es la página eliminada desconocida correcta)

ingrese la descripción de la imagen aquí

En resumen, mi intuición es que el lento costo de la recuperación y el bajo número de objetos retenidos (recuento de /Annots = aproximadamente 57 (¿páginas?), sugiere que la recuperación es más costosa que la mano de obra para "hacerlo de nuevo". es un buen grupo de 67961 a 70957, por lo que deberían ser recuperables.

La mejor aplicación de recuperación que encontré.https://superuser.com/a/1808687/1769247. Solo muestra objetos desde un número de página nominal de 180 en adelante hasta 240 del total de 849 y en realidad reproduce más del doble de páginas de imágenes adicionales, ya que en términos pictóricos algunos serán negativos del enmascaramiento suave, por lo que 850-1845 son piezas que pueden ser ¿subimagen duplicada del 180-240 o pueden ser pedacitos de otros?.

Aquí hay un enlace de 30 días a las partes restantes reparadas.https://filetransfer.io/data-package/nbXvfSBp#link

ingrese la descripción de la imagen aquí

Recomendaciones para seguir adelante

  1. Divida el archivo maestro en 4 partes convenientes. Esto tiene un beneficio triple.

    • Cada parte será más rápida de renderizar y responder a anotaciones intensas.
    • Solucione cualquier problema de base en el archivo fuente.
    • Reduzca las pérdidas catastróficas futuras a solo el 25 % a la vez.
  2. Reconsidere la capacidad del software de anotación para trabajar con las enormes cantidades de memoria requeridas y la posibilidad de una pérdida por "apagón", donde cualquier falla temporal puede destruir un archivo de edición abierto.

  3. Trabaje en un sistema de disco local confiable, como una estación de trabajo, y nunca en una unidad de nube sincronizada.

  4. No utilice el archivo reparado en sí, simplemente utilícelo como aviso para tareas repetidas. Puede incluir objetos de cortar y pegar en un editor de GUI de PDF que debería evitar la transferencia de otras fallas.

Posibilidad específica del caso.
Es posible que descubra que los números de página no están sincronizados pero están en el orden correcto o, con suerte, en el orden perfecto para transferirlos al archivo maestro. Si ese es el caso, entonces existen herramientas de línea de comandos que "podrían" acelerar la transferencia exportando /Annots desde el archivo de recuperación como, por ejemplo, JSON y luego permitiendo la importación a un archivo maestro optimizado adecuadamente por números de página. Una de esas herramientas puede ser cpdf coherente, ya que tiene una herramienta optimizadora y una importación de exportación /Annots. pero no puedo decir si responderá suficientemente bien a esta cuestión.

información relacionada