これまで、祖父母は財務記録を手書きしていましたが、その筆記体ではない手書きの方が下の写真よりもきれいで分かりやすいです。各ページをスキャンした後、Excel 2019 はスキャンした画像を Excel スプレッドシートに自動的に即座に変換できますか? OCR がテキストと数字を認識したとしても、各テキストと数字を整理するには時間がかかりすぎます。
2枚目の写真の出典はこちら。2016年のRedditの投稿何も役に立ちません。
答え1
私は同意せざるを得ないmusic2myearの回答。
アクセスできるどのコンピューターでも、手書きの記録を Excel に変換するような有用な操作は実行できません。
難しいタスクは少なくとも 3 つあります。
- 「コンテンツ」と非コンテンツを区別します。
- レイアウトを認識し、それをセルの位置に変換します。
- 手書き文字を認識してテキストに変換します。
消費者向けソフトウェアやオンライン サービスが利用可能で、きれいな表形式の機械印刷テキストをスプレッドシート ファイルに変換するのに十分な機能を備えています。しかし、最高のものでも完璧とは程遠い場合があります。これは、位置に基づいてテキストを適切なセルに割り当てるという作業にすぎません。
これらの画像を見ると、脳は何が「印刷済みフォーム」で、何がコンテンツで、何がノイズで、何が関係のない人間のマークかを非常にうまく選別します。物事がどのように整列しているか、文脈に基づいて何が何と関連しているかを認識できます。コンピューターにとっては、背景色以外のものはすべて「何か」です。その中で何が重要で、何が翻訳すべき文字である可能性があるかを判断するのは非常に困難です。また、コンテンツが印刷済みの行と重なると、コンピューターが簡単に処理できない中断やデータの欠落が発生します。
たとえば、画像を例に挙げてみましょう。最初の画像は、まったくの無駄です。その多くは、線やレイアウトを無視しています。事前に印刷されたグリッドをコンテンツから分離して削除するという追加の作業が必要になります。2 番目の画像では、コンテンツは大部分がグリッドの境界内に収まっていますが、不要なマーク (スラッシュ、下線など) が多数あり、クリーンアップが必要です。
しかし、最も難しいのは、手書き文字を認識してそれをコンピューターのテキストに変換することです。画像 1 の場合、人間でさえその一部が何であるかを判断するのに苦労し、文脈と単語の知識に基づいて多くの推測が必要になります。画像 2 では、数字のほとんどはそれほど悪くありませんが、テキストが問題になります。
祖父母の記録が筆記体ではなく、整然としていて、読みやすく、一貫性があり、機械印刷に似ている場合、OCR は「妥当な」仕事をするかもしれません。しかし、それでも多くのクリーンアップ作業が必要になります。
ちなみに、米国郵政公社は、最も先進的な手書き認識技術を保有しており、郵便物に書かれた住所を自動装置で仕分けするために使用しています。これが可能なのは、住所が規定の構造と形式になっており、考えられるすべての住所を事前に把握しているからです。目的は、すべての文字を正しく認識することよりも、手書きの住所を候補に一致させることです。
冗長性が非常に多くあります。文字の半分しか解読できない場合、一致する可能性のある文字は 1 つまたは数個しかない可能性があります。それでも、相当な部分は人間の介入が必要です。作業が完了し、郵便物が配達員に配達されると、配達員は配達ルート上の住所と名前を把握しており、住所が誤って解釈されていないことを確認するためにすべてをチェックします。
これは、最先端の技術と、比較対象として極めて制御された範囲を備えた手書き OCR のレベルです。タスクでは、すべての文字を翻訳する必要があります。レコードに正当に含まれる可能性のあるすべての単語のマスター リストはありません (言語全体の辞書を除く)。OCR では大量のクリーンアップが必要になるため、レコードを読み取って Excel に入力する方が高速です。これは珍しいタスクではなく、プロのデータ入力担当者は、非常に迅速かつ安価に実行できます。
答え2
これではできません。
または、「OCR」(「光学式文字認識」の略)と呼ばれる、これを実行するツールを使用することもできますが、これらは表現されている文字について最善の推測を行うアルゴリズムに基づいており、ここでの入力の状態に基づくと、満足のいく結果が得られる可能性は非常に低くなります。
基本的に、今日の消費者および企業市場で入手可能な最高のツールを使用したとしても、結局はほぼすべてのデータを手動で修正するか、自分で入力することが必要になります。
コンピュータは継続的に改良されているかもしれませんが、少なくとも私たちが利用できるコンピュータとソフトウェアのレベルでは、この種の情報を解釈する能力は人間の目と脳にはるかに劣っています。