이미지에서 텍스트를 어떻게 추출하나요?
스캔한 파일이 아니라 수업 시간에 칠판의 고화질 사진을 찍고 손으로 직접 쓴 정원의 다양한 이미지에 대해 말하는 것입니다. 또는 요리법 책의 페이지를 촬영하고 요리법을 텍스트 형식으로 원할 때.
이에 대한 무료 개방형 소프트웨어가 있습니까?
나는 tesseract를 시도했고 결과는 끔찍했습니다.
답변1
tesseract-ocr
다른 모든 것에 비해 훌륭한 사람이 될 것입니다. 설치를 위해 아래 명령을 실행하세요.
sudo apt-get install tesseract-ocr
사용법은 다음과 같습니다 tesseract filename.jpg output.txt
. 그러면 파일이 생성됩니다 output.txt
.
적절한 언어를 선택하는 것이 좋습니다. 이 경우 tesseract-ocr-LANG
패키지를 설치해야 합니다 . 여기서 LANG
세 글자는ISO 639-2 언어 코드. 현재 18.04 저장소에는 123개 언어가 있습니다.그런 다음 사용예를 들어:
tesseract mySpanishText.jpg output -l spa
답변2
이미지에서 텍스트를 추출하는 행위를 우분투에는 OCR
다음 전용 위키 페이지가 있습니다.OCR. 해당 페이지에서:
사용 가능한 OCR 도구
Ubuntu Universe 리포지토리에는 다음 OCR 도구가 포함되어 있습니다.
- 고크르- 명령줄 OCR
- 퍼지- 이미지 첨부 파일을 확인하는 spamassassin 플러그인
- libhocr0- 히브리어 OCR
- 오크라드- 광학 문자 인식 프로그램
- 오크피더- 문서 레이아웃 분석 및 광학 문자 인식 시스템
- 문어- 문서 분석 및 OCR 시스템
- tesseract-ocr
Ubuntu 다중 우주 저장소에는 다음도 포함되어 있습니다.
- 설형 문자- 다국어 OCR 시스템
일부 패키지는 오래되었지만 비공식적인 최신 패키지는 다음에서 찾을 수 있습니다.Alex_P PPA(PPA 추가 코드: ppa:alex-p/notesalexp). PPA 수표를 사용한 적이 없는 경우PPA에서 소프트웨어를 추가하는 방법.
편집 : 댓글에 표시된대로클라라 OCR존재하지만 Hardy에서는 멈췄으며 웹 사이트의 마지막 업데이트는 2009년입니다.
답변3
답변4
사용하면 tesseract-ocr
추출할 수 있습니다.텍스트~에서이미지. 나는 gocr
비교했을 때 잘 작동하지 않는 것을 테스트했습니다 .tesseract-ocr
설치:
sudo apt-get install tesseract-ocr
Python
모든 이미지 파일을 변환하는 프로그램png현재 디렉토리 내부의 확장명txt파일
#!/usr/bin/env python3.10
import os
import subprocess
def list_files(path):
files = []
for name in os.listdir(path):
if os.path.isfile(os.path.join(path, name)):
files.append(os.path.join(path, name))
return files
def convertImageToText(img_file):
#process = subprocess.Popen(['tesseract', img_file,
# ''.join(img_file.rsplit('.png', 1))])
os.system(f"tesseract {img_file} {''.join(img_file.rsplit('.png', 1))}")
def startOperation():
list_file = list_files(".")
print(list_file)
for img_file in list_file:
if img_file.lower().split(".")[-1] == "png":
convertImageToText(img_file)
startOperation()