OCR-Software für .TIFF-Bilder mit Unterstützung für automatische Drehung

Ich arbeite mit einer Person zusammen, die ungefähr 30.000 gescannte elektrische Schaltpläne mit gedrucktem (nicht handschriftlichem) Text im .TIFF-Format hat. Viele der Schaltpläne wurden orientierungslos gescannt, aber in keinem bestimmten Muster (dh einige sind um 90 Grad gedreht, andere um 180 Grad). Er verbringt jeden Tag 30 Minuten damit, die Bilder zu drehen.

Gibt es eine Anwendung (z. B. Adobe Acrobat Pro), die sie mithilfe von OCR automatisch drehen kann, um sicherzustellen, dass ihr Text mit der richtigen Seite nach oben zeigt? Ich weiß, dass es eine Möglichkeit gibt, dies über die Befehlszeilenschnittstelle zu tun, aber ich würde wirklich gerne eine Anwendung mit einer GUI finden. Die Anwendung müsste auch im Stapelbetrieb arbeiten (dh ich muss nicht jede Datei einzeln durchgehen). Ich arbeite für ein großes Unternehmen, daher spielen die Kosten keine so große Rolle, wie es normalerweise der Fall wäre. Die Anwendung wäre unter Windows 7 lauffähig.

Ich danke Ihnen für Ihre Hilfe.

Antworten (3)

Wenn Sie Ihre eigene Anwendung entwickeln möchten, können Sie sich das LEADTOOLS OCR SDK ansehen . Mit den LEADTOOLS-Bibliotheken können Sie alle Seiten, die gedreht werden müssen, automatisch drehen. Während des OCR-Vorgangs können Sie die Methode AutoPreProcess() aufrufen

AutoPreprocess(OcrAutoPreprocessPageCommand.Rotate, null); 

auf jeder OCR-Seite, die dem Dokument hinzugefügt wird. Hier sind ein paar Codezeilen, die Ihnen zeigen, wie Sie eine Seite automatisch drehen können.

// Create an instance of the engine
using (IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Advantage, false))
{
  // Start the engine using default parameters
  ocrEngine.Startup(null, null, null, LEAD_VARS.OcrAdvantageRuntimeDir);

  // Create an OCR document
  using (IOcrDocument ocrDocument = ocrEngine.DocumentManager.CreateDocument())
  {
     // Add this image to the document
     IOcrPage ocrPage = ocrDocument.Pages.AddPage(tifFileName, null);

     // Auto-preprocess it
     ocrPage.AutoPreprocess(OcrAutoPreprocessPageCommand.Rotate, null);

     // Recognize it and save it as PDF
     ocrPage.Recognize(null);
     ocrDocument.Save(pdfFileName, DocumentFormat.Pdf, null);
   }
  }

Haftungsausschluss: Ich bin ein Mitarbeiter dieses Produkts

Acrobat dreht das Dokument während der OCR automatisch, um die Ausrichtung unabhängig von der aktuellen Ausrichtung zu korrigieren (selbst wenn einige um 90, 180 oder 270 von der Ausrichtung abweichen). Es kann die Ausrichtung in den folgenden Fällen möglicherweise nicht korrigieren: 1) Wenn es keinen Text im Dokument erkennt 2) Wenn es Text im Dokument mit mehreren Ausrichtungen gibt

Sie können die Testversion von Acrobat DC verwenden https://acrobat.adobe.com/in/en/free-trial-download.html
Schritte zur Verwendung:

  1. Extras > Scan verbessern > In mehreren Dateien
  2. Wählen Sie alle Dateien aus
  3. Geben Sie Einstellungen zum Ausführen von OCR und zum Speichern aller Dokumente an

Bitte versuchen Sie pdf2pdfocr ( https://github.com/LeoFCardoso/pdf2pdfocr ) mit der Option „-u“ für eine einzelne Datei.

Sie können eine Stapelausführung mit einem CMD- oder BASH-Skript erhalten.

Haftungsausschluss: Ich bin der Entwickler von pdf2pdfocr.