Obtendo o carimbo de data/hora "Criado" de um arquivo PDF na CLI

Obtendo o carimbo de data/hora "Criado" de um arquivo PDF na CLI

Gostaria de saber se existe um comando CLI para obter o carimbo de data/hora "Criado" na guia "Documento" (das propriedades do arquivo de um PDF) na CLI.

Eu sei que posso usar statpara obter informações de acesso/modificado/alterado do sistema de arquivos, mas com os metadados na guia "Documento" sendo incorporados no próprio arquivo, não tenho certeza de como extraí-los por meio do CLI.

A razão pela qual preciso fazer isso é criar uma lista de nomes de arquivos junto com carimbos de data/hora "Criados" para cerca de 22.000 arquivos PDF. Obviamente, isso é algo muito mais adequado à CLI do que à GUI.

Responder1

Se você instalar o poppler-utilspacote, poderá fazer isso usando o pdfinfocomando. Por exemplo:

$ pdfinfo OBEX-1.3.pdf 
Title:          Microsoft Word - OBEX13.doc
Author:         Daphne
Creator:        PScript5.dll Version 5.2
Producer:       Acrobat Distiller 5.0.5 (Windows)
CreationDate:   Wed Feb  5 11:12:32 2003
ModDate:        Wed Feb  5 11:12:32 2003
Tagged:         no
Pages:          95
Encrypted:      no
Page size:      612 x 792 pts (letter)
File size:      545666 bytes
Optimized:      yes
PDF version:    1.3

Você deve conseguir extrair a data de criação dessa saída usando ferramentas padrão como sedou awk.

Se você quiser algo um pouco mais programático, poderá usar a popplerbiblioteca diretamente. Existem ligações para muitas linguagens populares, incluindo Python (por meio do python-popplerpacote).

Responder2

Sou novo nisso, mas pareceExiftoolpode extrair isso. Por exemplo:

% exiftool -createdate -ext pdf .

gerará a data de criação para todos os PDFs no diretório atual. Existem algumas opções paracontrolar o formato de saída, incluindo -csve -json.

informação relacionada