Com isso, você não pode.

Com isso, você não pode.

Até agora, os meus avós escreviam à mão os seus registos financeiros, mas a sua caligrafia não cursiva é mais clara e mais inteligível do que as imagens abaixo. Depois de digitalizar cada página, o Excel 2019 pode converter automaticamente e imediatamente a imagem digitalizada em uma planilha do Excel? Mesmo que o OCR reconheça o texto e os números, organizar cada texto e número consumirá muito tempo.

Aqui está a fonte da segunda foto.Esta postagem do Reddit de 2016não produz nada útil.

insira a descrição da imagem aqui

insira a descrição da imagem aqui

Responder1

eu tenho que concordar comresposta de music2myear.

Com qualquer computador ao qual você tenha acesso, você não pode fazer nada de útil para passar de registros manuscritos para o Excel.

Existem pelo menos três tarefas difíceis:

  1. Distinguir “conteúdo” de não conteúdo.
  2. Reconhecer o layout e traduzi-lo para localizações de células.
  3. Reconhecer os caracteres manuscritos e traduzi-los em texto.

Software de consumo e serviços on-line estão disponíveis e fazem um trabalho razoável de conversão de texto impresso em máquina que está em formato de tabela limpo em um arquivo de planilha. Mas mesmo o melhor pode estar longe de ser perfeito. Essa é apenas a tarefa de atribuir texto à célula certa com base em sua posição.

Quando você olha para essas imagens, seu cérebro é muito bom em separar o que é “forma pré-impressa”, o que é conteúdo, o que é ruído e o que são marcações humanas que não são relevantes. Você pode reconhecer como as coisas estão alinhadas e o que acontece com base no contexto. Para o computador, tudo que não é a cor de fundo é “alguma coisa”. Descobrir o que é importante para você e o que poderia ser algum tipo de personagem a ser traduzido é extremamente difícil. E se o conteúdo se sobrepõe a linhas pré-impressas, isso introduz quebras e dados ausentes que o computador não consegue manipular facilmente.

Veja suas imagens, por exemplo. A primeira imagem é uma causa perdida. Muito disso ignora as linhas e o layout. Você teria a tarefa adicional de separar e remover a grade pré-impressa do conteúdo. Na segunda imagem, o conteúdo está principalmente dentro dos limites da grade, mas há muitas marcações perdidas (barras, sublinhados, etc.) que exigiriam limpeza.

A parte mais difícil, porém, é reconhecer a escrita à mão e convertê-la em texto de computador. Para a imagem 1, até mesmo os humanos teriam dificuldade em descobrir o que é isso, e isso envolveria muitas suposições com base no contexto e na familiaridade com as palavras. Na imagem 2, a maioria dos números não são tão ruins, mas o texto seria um problema.

Se os registros de seus avós não forem cursivos e forem organizados, legíveis, consistentes e semelhantes à impressão por máquina, o OCR poderá fazer um trabalho "razoável" neles. Mas você ainda teria muita limpeza.

Para se ter uma ideia, o Serviço Postal dos EUA possui um dos mais avançados reconhecimentos de caligrafia, que usa para ler endereços em correspondências para que possam ser classificados com equipamento automatizado. A única maneira de fazer isso é porque os endereços estão em uma estrutura e formato prescritos e eles conhecem todos os endereços possíveis com antecedência. O objetivo é mais combinar os endereços manuscritos com candidatos viáveis ​​do que acertar todos os caracteres.

Há uma tonelada de redundância. Se você conseguir decifrar apenas metade dos caracteres, ainda poderá haver apenas uma ou algumas correspondências possíveis. Mesmo assim, uma parcela substancial requer intervenção humana. Quando termina e a correspondência chega à transportadora para entrega, a transportadora conhece os endereços e nomes do seu trajeto e verifica tudo para garantir que os endereços não foram mal interpretados.

Esse é o nível de OCR de escrita manual com tecnologia de ponta e uma gama extremamente controlada de possibilidades de comparação. Sua tarefa precisa traduzir todos os caracteres. Você não tem uma lista mestra de todas as palavras que poderiam legitimamente estar nesses registros (além de um dicionário de todo o idioma). OCR exigiria tanta limpeza que seria mais rápido simplesmente ler os registros e digitá-los no Excel. Essa não é uma tarefa incomum, e profissionais profissionais de digitação de dados podem fazê-la de maneira bastante rápida e econômica.

Responder2

Com isso, você não pode.

Ou você pode tentar usar as ferramentas que fazem isso, chamadas "OCR" (para "Reconhecimento Óptico de Caracteres"), porém elas são baseadas em algoritmos que fazem as melhores suposições sobre os caracteres que estão sendo representados e com base na condição de com as informações que você tem aqui, é MUITO improvável que você obtenha um resultado satisfatório.

Basicamente, mesmo com as melhores ferramentas disponíveis no mercado consumidor e empresarial hoje, você acabará tendo que corrigir manualmente ou inserir quase todos os dados sozinho.

Os computadores podem estar melhorando continuamente, mas permanecem muito inferiores aos olhos e ao cérebro humanos na interpretação desse tipo de informação, pelo menos no nível do computador e do software disponível para você e para mim.

informação relacionada