Ich suche ein Framework/eine Bibliothek, die gescannte Bilder vorverarbeitet und für den weiteren OCR-Prozess vorbereitet. Beispielsweise erkennt und entfernt es automatisch Hintergrundgeräusche, verbessert den Textkontrast usw.
Gibt es für diesen Zweck etwas auf dem Markt?
Die LEADTOOLS Document Imaging Library enthält verschiedene Bildbearbeitungs- und Dokumentenbereinigungsfunktionen. Einige von ihnen sind speziell für die OCR-Vorverarbeitung konzipiert. Beispiele sind DotRemoveCommand, DeskewCommand und InvertedPageCommand. Sie können es ausprobieren, indem Sie entweder die vollständige SDK-Testversion oder die eigenständige OCR-Click-Once-Demo herunterladen . (Haftungsausschluss: Ich bin ein Mitarbeiter des Anbieters dieses Toolkits).
Beispielsweise kann der DotRemoveCommand verwendet werden, um Punkte und Flecken verschiedener Größen automatisch zu entfernen, der Code sieht folgendermaßen aus:
RasterCodecs codecs = new RasterCodecs();
RasterImage image = codecs.Load("image.tif"));
DotRemoveCommand command = new DotRemoveCommand(DotRemoveCommandFlags.None, 1, 1, 10, 10);
command.Run(image);
Izzy