Sapo

Question 1

tesseract-ocrseria o melhor comparado a todos os outros. Para instalação, execute o comando abaixo

sudo apt-get install tesseract-ocr

O uso é tesseract filename.jpg output.txt, então ele irá gerar output.txto arquivo.

Você pode considerar selecionar o idioma apropriado. Nesse caso, você precisará instalar tesseract-ocr-LANGo pacote, onde LANGestá o código de três letrasCódigo de idioma ISO 639-2. No momento você tem 123 idiomas no repositório 18.04.Então usepor exemplo:

tesseract mySpanishText.jpg output -l spa

Answer

tesseract-ocrseria o melhor comparado a todos os outros. Para instalação, execute o comando abaixo

sudo apt-get install tesseract-ocr

O uso é tesseract filename.jpg output.txt, então ele irá gerar output.txto arquivo.

Você pode considerar selecionar o idioma apropriado. Nesse caso, você precisará instalar tesseract-ocr-LANGo pacote, onde LANGestá o código de três letrasCódigo de idioma ISO 639-2. No momento você tem 123 idiomas no repositório 18.04.Então usepor exemplo:

tesseract mySpanishText.jpg output -l spa

Question 2

O ato de extrair texto de imagens é chamado OCRe o Ubuntu possui uma página wiki dedicada aOCR. Dessa página:

Ferramentas de OCR disponíveis

Os repositórios do Ubuntu Universe contêm as seguintes ferramentas de OCR:

gocr- Um OCR de linha de comando
confuso- plugin spamassassin para verificar anexos de imagens
libhocr0- OCR hebraico
ocrad- Programa de reconhecimento óptico de caracteres
ocrfeeder- Análise de layout de documentos e sistema de reconhecimento óptico de caracteres
polvo- análise de documentos e sistema OCR
tesseract-ocr

Os repositórios multiverso do Ubuntu também contêm:

cuneiforme- sistema OCR multilíngue

Alguns pacotes estão desatualizados, mas outros não oficiais podem ser encontrados emAlex_P PPA(Código de adição PPA: ppa:alex-p/notesalexp). Se você nunca usou um cheque PPAcomo adicionar software de um PPA.

editar: conforme mostrado no comentárioClara OCRexiste também, mas foi prejudicado por Hardy e seu site foi atualizado em 2009.

Answer

O ato de extrair texto de imagens é chamado OCRe o Ubuntu possui uma página wiki dedicada aOCR. Dessa página:

Ferramentas de OCR disponíveis

Os repositórios do Ubuntu Universe contêm as seguintes ferramentas de OCR:

gocr- Um OCR de linha de comando
confuso- plugin spamassassin para verificar anexos de imagens
libhocr0- OCR hebraico
ocrad- Programa de reconhecimento óptico de caracteres
ocrfeeder- Análise de layout de documentos e sistema de reconhecimento óptico de caracteres
polvo- análise de documentos e sistema OCR
tesseract-ocr

Os repositórios multiverso do Ubuntu também contêm:

cuneiforme- sistema OCR multilíngue

Alguns pacotes estão desatualizados, mas outros não oficiais podem ser encontrados emAlex_P PPA(Código de adição PPA: ppa:alex-p/notesalexp). Se você nunca usou um cheque PPAcomo adicionar software de um PPA.

editar: conforme mostrado no comentárioClara OCRexiste também, mas foi prejudicado por Hardy e seu site foi atualizado em 2009.

Question 3

Sapo

TentarSapo. Frog é uma ferramenta intuitiva de extração de texto (OCR) para GNOME.

Answer

Sapo

TentarSapo. Frog é uma ferramenta intuitiva de extração de texto (OCR) para GNOME.

Question 4

Usando tesseract-ocrpodemos extrairtextodeimagens. Eu testei gocro que não funcionou bem em comparação comtesseract-ocr

Instalação:

sudo apt-get install tesseract-ocr

Pythonprograma para converter todos os arquivos de imagem compngextensão dentro do diretório atual paraTXTarquivo

#!/usr/bin/env python3.10
import os
import subprocess

def list_files(path):
    files = []
    for name in os.listdir(path):
        if os.path.isfile(os.path.join(path, name)):
            files.append(os.path.join(path, name))
    return files

def convertImageToText(img_file):
    #process = subprocess.Popen(['tesseract', img_file,
    #    ''.join(img_file.rsplit('.png', 1))])
    os.system(f"tesseract {img_file} {''.join(img_file.rsplit('.png', 1))}")


def startOperation():
    list_file = list_files(".")
    print(list_file)
    for img_file in list_file:
        if img_file.lower().split(".")[-1] == "png":
            convertImageToText(img_file)

startOperation()

Answer

Usando tesseract-ocrpodemos extrairtextodeimagens. Eu testei gocro que não funcionou bem em comparação comtesseract-ocr

Instalação:

sudo apt-get install tesseract-ocr

Pythonprograma para converter todos os arquivos de imagem compngextensão dentro do diretório atual paraTXTarquivo

#!/usr/bin/env python3.10
import os
import subprocess

def list_files(path):
    files = []
    for name in os.listdir(path):
        if os.path.isfile(os.path.join(path, name)):
            files.append(os.path.join(path, name))
    return files

def convertImageToText(img_file):
    #process = subprocess.Popen(['tesseract', img_file,
    #    ''.join(img_file.rsplit('.png', 1))])
    os.system(f"tesseract {img_file} {''.join(img_file.rsplit('.png', 1))}")


def startOperation():
    list_file = list_files(".")
    print(list_file)
    for img_file in list_file:
        if img_file.lower().split(".")[-1] == "png":
            convertImageToText(img_file)

startOperation()

Sapo

Responder1

Responder2

Responder3

Sapo

Responder4

informação relacionada