蛙

Question 1

tesseract-ocr他のものと比べて素晴らしいものになるでしょう。インストールするには、以下のコマンドを実行してください。

sudo apt-get install tesseract-ocr

使用方法はでtesseract filename.jpg output.txt、output.txtファイルが生成されます。

適切な言語を選択することを検討してください。その場合、tesseract-ocr-LANGパッケージをインストールする必要がありますLANG。ISO 639-2 言語コード現在、18.04 リポジトリには 123 の言語があります。次に例えば：

tesseract mySpanishText.jpg output -l spa

Answer

tesseract-ocr他のものと比べて素晴らしいものになるでしょう。インストールするには、以下のコマンドを実行してください。

sudo apt-get install tesseract-ocr

使用方法はでtesseract filename.jpg output.txt、output.txtファイルが生成されます。

適切な言語を選択することを検討してください。その場合、tesseract-ocr-LANGパッケージをインストールする必要がありますLANG。ISO 639-2 言語コード現在、18.04 リポジトリには 123 の言語があります。次に例えば：

tesseract mySpanishText.jpg output -l spa

Question 2

画像からテキストを抽出する行為は「テキスト抽出」と呼ばれOCR、Ubuntuには専用のWikiページがあります。OCCRそのページから：

利用可能なOCRツール

Ubuntu Universe リポジトリには、次の OCR ツールが含まれています。

ゴックル- コマンドラインOCR
ファジー- 画像添付ファイルをチェックするspamassassinプラグイン
libhocr0- ヘブライ語OCR
オクラド- 光学文字認識プログラム
ocrフィーダー- 文書レイアウト解析および光学文字認識システム
オクロプス- 文書分析およびOCRシステム
テッセラクトOCR

Ubuntu マルチバースリポジトリには次のものも含まれています:

楔形文字- 多言語OCRシステム

一部のパッケージは古くなっていますが、非公式の新しいパッケージは以下にあります。Alex_P PPA（PPA追加コード：ppa:alex-p/notesalexp）。PPAチェックを一度も使用したことがない場合はPPAからソフトウェアを追加する方法。

編集: コメントにある通りクララOCR存在しますが、Hardy でスタックしてしまい、同社の Web サイトの最終更新日は 2009 年となっています。

Answer

画像からテキストを抽出する行為は「テキスト抽出」と呼ばれOCR、Ubuntuには専用のWikiページがあります。OCCRそのページから：

利用可能なOCRツール

Ubuntu Universe リポジトリには、次の OCR ツールが含まれています。

ゴックル- コマンドラインOCR
ファジー- 画像添付ファイルをチェックするspamassassinプラグイン
libhocr0- ヘブライ語OCR
オクラド- 光学文字認識プログラム
ocrフィーダー- 文書レイアウト解析および光学文字認識システム
オクロプス- 文書分析およびOCRシステム
テッセラクトOCR

Ubuntu マルチバースリポジトリには次のものも含まれています:

楔形文字- 多言語OCRシステム

一部のパッケージは古くなっていますが、非公式の新しいパッケージは以下にあります。Alex_P PPA（PPA追加コード：ppa:alex-p/notesalexp）。PPAチェックを一度も使用したことがない場合はPPAからソフトウェアを追加する方法。

編集: コメントにある通りクララOCR存在しますが、Hardy でスタックしてしまい、同社の Web サイトの最終更新日は 2009 年となっています。

Question 3

蛙

試す蛙Frog は、GNOME 用の直感的なテキスト抽出ツール (OCR) です。

Answer

蛙

試す蛙Frog は、GNOME 用の直感的なテキスト抽出ツール (OCR) です。

Question 4

tesseract-ocr抽出できる文章から画像。私はテストしましたgocrが、うまく機能しませんでした。tesseract-ocr

インストール:

sudo apt-get install tesseract-ocr

Pythonすべての画像ファイルを変換するプログラムpng現在のディレクトリ内の拡張子TXTファイル

#!/usr/bin/env python3.10
import os
import subprocess

def list_files(path):
    files = []
    for name in os.listdir(path):
        if os.path.isfile(os.path.join(path, name)):
            files.append(os.path.join(path, name))
    return files

def convertImageToText(img_file):
    #process = subprocess.Popen(['tesseract', img_file,
    #    ''.join(img_file.rsplit('.png', 1))])
    os.system(f"tesseract {img_file} {''.join(img_file.rsplit('.png', 1))}")


def startOperation():
    list_file = list_files(".")
    print(list_file)
    for img_file in list_file:
        if img_file.lower().split(".")[-1] == "png":
            convertImageToText(img_file)

startOperation()

Answer

tesseract-ocr抽出できる文章から画像。私はテストしましたgocrが、うまく機能しませんでした。tesseract-ocr

インストール:

sudo apt-get install tesseract-ocr

Pythonすべての画像ファイルを変換するプログラムpng現在のディレクトリ内の拡張子TXTファイル

#!/usr/bin/env python3.10
import os
import subprocess

def list_files(path):
    files = []
    for name in os.listdir(path):
        if os.path.isfile(os.path.join(path, name)):
            files.append(os.path.join(path, name))
    return files

def convertImageToText(img_file):
    #process = subprocess.Popen(['tesseract', img_file,
    #    ''.join(img_file.rsplit('.png', 1))])
    os.system(f"tesseract {img_file} {''.join(img_file.rsplit('.png', 1))}")


def startOperation():
    list_file = list_files(".")
    print(list_file)
    for img_file in list_file:
        if img_file.lower().split(".")[-1] == "png":
            convertImageToText(img_file)

startOperation()

蛙

答え1

答え2

答え3

蛙

答え4

関連情報