Bibliothek für Pre-OCR-Bildverarbeitungs-Framework/Bibliothek

Ich suche ein Framework/eine Bibliothek, die gescannte Bilder vorverarbeitet und für den weiteren OCR-Prozess vorbereitet. Beispielsweise erkennt und entfernt es automatisch Hintergrundgeräusche, verbessert den Textkontrast usw.

Gibt es für diesen Zweck etwas auf dem Markt?

Auf welchem ​​Betriebssystem muss es laufen (oder, wenn Sie nach einer Bibliothek fragen, mit welcher Sprache muss es funktionieren)? Was ist Ihre Preisgrenze, wenn es um kostenpflichtige Software geht?

Antworten (1)

Die LEADTOOLS Document Imaging Library enthält verschiedene Bildbearbeitungs- und Dokumentenbereinigungsfunktionen. Einige von ihnen sind speziell für die OCR-Vorverarbeitung konzipiert. Beispiele sind DotRemoveCommand, DeskewCommand und InvertedPageCommand. Sie können es ausprobieren, indem Sie entweder die vollständige SDK-Testversion oder die eigenständige OCR-Click-Once-Demo herunterladen . (Haftungsausschluss: Ich bin ein Mitarbeiter des Anbieters dieses Toolkits).

Beispielsweise kann der DotRemoveCommand verwendet werden, um Punkte und Flecken verschiedener Größen automatisch zu entfernen, der Code sieht folgendermaßen aus:

RasterCodecs codecs = new RasterCodecs(); 
RasterImage image = codecs.Load("image.tif")); 
DotRemoveCommand command = new DotRemoveCommand(DotRemoveCommandFlags.None, 1, 1, 10, 10);  
command.Run(image);
Danke für deine Antwort. Ich habe die „OCR-Klick-Einmal-Demo“ evaluiert, insbesondere die „Dokumentenbereinigung“-Funktion. Leider ist die Qualität dieses Prozesses alles andere als perfekt (wahrscheinlich ist das meine Schuld, aber ich konnte keine Möglichkeit finden, die Qualität zu verbessern). Ich bin wirklich traurig darüber, weil Ihre Software einen Java-Client hat und auf einer Linux-Plattform funktioniert. Im Moment wurde das beste Ergebnis mit ClearImage Image Processing SDK erzielt, aber das größte Problem für mich ist, dass diese Software nur unter Windows funktioniert.