Es gibt ein paar OCR- Fragen auf dieser Seite, aber sie sind entweder nur für Linux oder nur für PDFs.
Ich suche also ein Tool, das Bilder mit Text in bearbeitbaren Text (.doc / .txt) umwandelt.
Es muss:
Die besten verfügbaren OCR-Tools für den persönlichen Gebrauch in Bezug auf die Genauigkeit sind Nuance OmniPage , ABBYY FineReader und Acrobat XI Pro . (Ich habe mir keine Benchmarks angesehen , aber ich hatte diesen Eindruck, als ich vor ein paar Jahren nach einem suchte). Aber sie kosten alle über 20 USD.
Tesseract wird meistens als die genaueste Open-Source-OCR-Engine angesehen. Es gibt mehrere Tesseract-GUIs . Andernfalls können Sie einige Bindungen verwenden, wie im folgenden Beispiel.
Beispiel :
Bild mit ImageMagick in TIF umwandeln:
#convert myimage.jpeg -auto-level -compress none myimage.tif
Python-Code zum Lesen von Daten aus myimage.tif (Tesseract benötigt TIFF als Eingabe):
from PIL import Image from pytesser.pytesser import * image_file = 'myimage.tif' im = Image.open(image_file) text = image_to_string(im) text = image_file_to_string(image_file) text = image_file_to_string(image_file, graceful_errors=True) print "=====output=======\n" print text
Kornelius
ᔕᖺᘎᕊ
Kornelius
BarathVutukuri