Aplique metadados a arquivos com base no OCR de seu conteúdo

Aplique metadados a arquivos com base no OCR de seu conteúdo

Essencialmente estou procurando uma ferramenta (Windows/Mac) que me permita o seguinte fluxo de trabalho:

  1. Digitalize TODOS os meus documentos em uma pasta (200-300 imagens digitalizadas)
  2. execute a ferramenta que irá percorrer todos os arquivos e executar o OCR neles
  3. com base no OCR, os metadados são aplicados a cada arquivo.
  4. Em seguida, leio os metadados e categorizo ​​os arquivos de acordo com um processo em lote.

Embora existam algumas sugestões no SU e SE para fazer OCR simples em arquivos, não consegui encontrar uma solução que essencialmente me permitisse fazer coisas programáticas com base nos dados editados por OCR dos documentos.

O modelo do documento é padrão, então sabemos que tipo de arquivo esperar. Queremos apenas verificar todo o grupo e, em seguida, executar um processo de back-end que categoriza/faz upload de maneira organizada nas respectivas pastas. Fazer o OCR me dá a opção de pesquisar no arquivo, enquanto o abro em um programa como o Acrobat Reader/Preview. Mas quero executar essa lógica de categorização a partir de um script em lote/shell/apple. Coisas como prefixar o número do documento ao nome do arquivo, etc.

Responder1

O que você descreve parece ser um cenário de uso único. Não acredito que existam soluções que funcionem da maneira que você descreve imediatamente. Se este for um projeto não comercial/de estudo você não terá muita escolha, especialmente para Windows. Basta pesquisar no Google por tesseract e ver o que você pode fazer.

Se você tiver algum orçamento, terá várias opções. Não está muito claro se você precisa de uma solução pronta para uso ou de um SDK, presumo que você precise do primeiro, então por que você não dá uma olhada emservidor de reconhecimento, é uma solução de OCR baseada em servidor projetada para processamento de documentos de médio a alto volume em grandes departamentos e empresas. Ele pode ser implantado como um programa independente ou integrado a um sistema de terceiros, como DMS, RMS e sistema de arquivamento eletrônico.

Eu trabalho na ABBYY e posso fornecer mais informações, se necessário. Espero que ajude!

informação relacionada