Ausgabe nur von der 1. Seite des TIFF zum Hocr-Extrakt erhalten

Question

BEARBEITEN:

Ich habe es überprüft, filenameanstattPILLOW.Image

text = pt.image_to_pdf_or_hocr('D:\\input\\Best time to visit.tiff', extension='hocr', config=(r'--oem 3 --psm 6'), lang="eng")

Es kann also tesseractmit dem Original ausgeführt werden tiffund wandelt alle Seiten in einen Text um hocr.

URSPRÜNGLICHE ANTWORT:

Ich habe Ihren tiffCode aus dem Link in meinem Kommentar genommen und Code erstellt, der jede Seite in einer separaten Datei speichert. Er dient img.seek(page)zum Auswählen von Seiten. Und bei mir funktioniert es mit Ihrer Datei.

from PIL import Image
import os

folder = '/home/furas/Desktop'
filename = 'Best time to visit.tiff'

img = Image.open(os.path.join(folder, filename))

page = 0

while True:
    try:
        img.seek(page)

        filename = f'page-{page+1}.png'
        print('saving...', filename)

        img.save(os.path.join(folder, filename))

        page += 1
    except EOFError:
        # Not enough frames in img
        break

Bei mir funktioniert sowas ähnliches auch in deinem Code

from PIL import Image
import pytesseract as pt
import os

pt.pytesseract.tesseract_cmd = r'C:\Users\admin\AppData\Local\Programs\Tesseract-OCR\tesseract.exe'
     
# path for the folder for getting the raw images
path = "D:\\input"

# path for the folder for getting the output
tempPath = "D:\\output"

# iterating the images inside the folder
for imageName in os.listdir(path):
 
    # only images   
    if imageName.lower().endswith(('.tiff', '.jpg', '.png')):
        print(imageName)
        
        inputPath = os.path.join(path, imageName)
        img = Image.open(inputPath)
    
        page = 0
        while True:
            try:
        
                img.seek(page)
                text = pt.image_to_pdf_or_hocr(img, extension='hocr', config=(r'--oem 3 --psm 6'), lang="eng")
        
                print('page...', page)
                page += 1
         
                fullTempPath = os.path.join(tempPath, f"time_{imageName}_{page}.hocr")
                #print(text)
        
                # saving the text for every image in a separate .hocr file
                file1 = open(fullTempPath, "wb")
                file1.write(text)
                file1.close()
            except EOFError:
                # Not enough frames in img
                break

Es muss jede Seite einzeln geschrieben werden .hocr, denn wenn Sie versuchen, viele in eine Datei zu schreiben .hocr, dann entstehen beschädigte.hocr

Um alle Seiten in eine Datei zu schreiben, müssten Sie einfachen Text verwenden.

Answer 1