개구리

개구리

이미지에서 텍스트를 어떻게 추출하나요?

스캔한 파일이 아니라 수업 시간에 칠판의 고화질 사진을 찍고 손으로 직접 쓴 정원의 다양한 이미지에 대해 말하는 것입니다. 또는 요리법 책의 페이지를 촬영하고 요리법을 텍스트 형식으로 원할 때.

이에 대한 무료 개방형 소프트웨어가 있습니까?

나는 tesseract를 시도했고 결과는 끔찍했습니다.

답변1

tesseract-ocr다른 모든 것에 비해 훌륭한 사람이 될 것입니다. 설치를 위해 아래 명령을 실행하세요.

sudo apt-get install tesseract-ocr

사용법은 다음과 같습니다 tesseract filename.jpg output.txt. 그러면 파일이 생성됩니다 output.txt.

적절한 언어를 선택하는 것이 좋습니다. 이 경우 tesseract-ocr-LANG패키지를 설치해야 합니다 . 여기서 LANG세 글자는ISO 639-2 언어 코드. 현재 18.04 저장소에는 123개 언어가 있습니다.그런 다음 사용예를 들어:

tesseract mySpanishText.jpg output -l spa

답변2

이미지에서 텍스트를 추출하는 행위를 우분투에는 OCR다음 전용 위키 페이지가 있습니다.OCR. 해당 페이지에서:

사용 가능한 OCR 도구

Ubuntu Universe 리포지토리에는 다음 OCR 도구가 포함되어 있습니다.

  1. 고크르- 명령줄 OCR
  2. 퍼지- 이미지 첨부 파일을 확인하는 spamassassin 플러그인
  3. libhocr0- 히브리어 OCR
  4. 오크라드- 광학 문자 인식 프로그램
  5. 오크피더- 문서 레이아웃 분석 및 광학 문자 인식 시스템
  6. 문어- 문서 분석 및 OCR 시스템
  7. tesseract-ocr

Ubuntu 다중 우주 저장소에는 다음도 포함되어 있습니다.

  1. 설형 문자- 다국어 OCR 시스템

일부 패키지는 오래되었지만 비공식적인 최신 패키지는 다음에서 찾을 수 있습니다.Alex_P PPA(PPA 추가 코드: ppa:alex-p/notesalexp). PPA 수표를 사용한 적이 없는 경우PPA에서 소프트웨어를 추가하는 방법.

편집 : 댓글에 표시된대로클라라 OCR존재하지만 Hardy에서는 멈췄으며 웹 사이트의 마지막 업데이트는 2009년입니다.

답변3

개구리

노력하다개구리. Frog는 GNOME을 위한 직관적인 텍스트 추출 도구(OCR)입니다.

스크린샷

Snap 스토어에서 구매하세요플랫허브에서 다운로드

답변4

사용하면 tesseract-ocr추출할 수 있습니다.텍스트~에서이미지. 나는 gocr비교했을 때 잘 작동하지 않는 것을 테스트했습니다 .tesseract-ocr

설치:

sudo apt-get install tesseract-ocr

Python모든 이미지 파일을 변환하는 프로그램png현재 디렉토리 내부의 확장명txt파일

#!/usr/bin/env python3.10
import os
import subprocess

def list_files(path):
    files = []
    for name in os.listdir(path):
        if os.path.isfile(os.path.join(path, name)):
            files.append(os.path.join(path, name))
    return files

def convertImageToText(img_file):
    #process = subprocess.Popen(['tesseract', img_file,
    #    ''.join(img_file.rsplit('.png', 1))])
    os.system(f"tesseract {img_file} {''.join(img_file.rsplit('.png', 1))}")


def startOperation():
    list_file = list_files(".")
    print(list_file)
    for img_file in list_file:
        if img_file.lower().split(".")[-1] == "png":
            convertImageToText(img_file)

startOperation()

관련 정보