
Gostaria de saber se existe um comando CLI para obter o carimbo de data/hora "Criado" na guia "Documento" (das propriedades do arquivo de um PDF) na CLI.
Eu sei que posso usar stat
para obter informações de acesso/modificado/alterado do sistema de arquivos, mas com os metadados na guia "Documento" sendo incorporados no próprio arquivo, não tenho certeza de como extraí-los por meio do CLI.
A razão pela qual preciso fazer isso é criar uma lista de nomes de arquivos junto com carimbos de data/hora "Criados" para cerca de 22.000 arquivos PDF. Obviamente, isso é algo muito mais adequado à CLI do que à GUI.
Responder1
Se você instalar o poppler-utils
pacote, poderá fazer isso usando o pdfinfo
comando. Por exemplo:
$ pdfinfo OBEX-1.3.pdf
Title: Microsoft Word - OBEX13.doc
Author: Daphne
Creator: PScript5.dll Version 5.2
Producer: Acrobat Distiller 5.0.5 (Windows)
CreationDate: Wed Feb 5 11:12:32 2003
ModDate: Wed Feb 5 11:12:32 2003
Tagged: no
Pages: 95
Encrypted: no
Page size: 612 x 792 pts (letter)
File size: 545666 bytes
Optimized: yes
PDF version: 1.3
Você deve conseguir extrair a data de criação dessa saída usando ferramentas padrão como sed
ou awk
.
Se você quiser algo um pouco mais programático, poderá usar a poppler
biblioteca diretamente. Existem ligações para muitas linguagens populares, incluindo Python (por meio do python-poppler
pacote).
Responder2
Sou novo nisso, mas pareceExiftoolpode extrair isso. Por exemplo:
% exiftool -createdate -ext pdf .
gerará a data de criação para todos os PDFs no diretório atual. Existem algumas opções paracontrolar o formato de saída, incluindo -csv
e -json
.