Physischer Text zu digitalem Text

Lassen Sie mich dieser Frage zuerst voranstellen, ich habe keine Ahnung, welche StackExchange-Site für diese Frage am besten geeignet wäre, aber ich dachte, LifeHacks könnten funktionieren ...

1998 hatte die Familie meiner Mutter ein großes Familientreffen (meine Urgroßmutter hatte zehn Kinder, also war es wirklich ein großes Treffen). Einer meiner entfernten Onkel hat für dieses Wiedersehen eine Art Buch über unsere Familiengeschichte geschrieben, und meine Mutter gab mir das Buch zum Lesen. Ich konnte nicht glauben, wie umfangreich es ist und wie viel Recherchearbeit in das Buch geflossen ist. Ich würde gerne einen Weg finden, das ganze Buch auf eine Website zu bringen, die ich erstellen werde, wo ich es dann mit allen in unserer Familie teilen und die Geschichte letztendlich länger bewahren kann, als es dieses schwache Buch kann.

In der Hoffnung, dass ich nicht Wort für Wort dieses ganze 300-seitige Buch tippen muss, gibt es eine Möglichkeit, wie ich die Seiten einfach scannen und sie in digitalem Text erhalten kann? Natürlich könnte ich einfach Fotos machen und die Website mit den Bildern erstellen, aber ich denke, es wäre vorteilhafter, es als tatsächlichen Text zu haben, weil es dann bei Google-Suchen besser angezeigt wird, wenn jemand nach dem Namen eines Familienmitglieds oder so etwas sucht. Wenn jemand in der Familie jemals ein Forschungsprojekt über unsere Familie durchführt, könnte er auch einen Teil des Textes kopieren und leichter darauf verweisen.

Weiß jemand, wie ich dieses alte Familienbuch am besten in digitalen Text umwandeln kann?

Titelseite buchen

Buch mit Angabe der Dicke

Antworten (5)

Verwenden Sie ein Android-Telefon und die kürzlich zur Foto-App hinzugefügte Funktion „ Google Lens “.

OCR über Google Lens ist ziemlich erstaunlich und präziser als jede OCR-Software, die ich je verwendet habe.

Unten sind einige Screenshots, die das Verfahren mit einem billigen (100 USD) Nokia 3 skizzieren, dem besten Telefon, das ich verwenden durfte, seit mein geliebtes Nexus 4 den Geist aufgegeben hat.

Ich werde einen Beispiel-OCR-Scan eines 1976 gedruckten Buches über griechische Ethymologien detailliert beschreiben, das ich zum Scannen nicht auseinanderreißen möchte und das eine ähnliche Zeichendichte und Schriftart zu haben scheint.

Ich habe dieses Originalbild bei weniger als idealen Lichtverhältnissen aufgenommen, wobei ich alle automatischen Einstellungen der mittelmäßigen Telefonkamera verwendet habe, es wurden keine speziellen Fototechniken oder Vorrichtungen verwendet, um das Ergebnis zu verbessern. Man könnte sagen, es ist nur ein einfaches, amateurhaft aufgenommenes Telefonbild von a Buchseite . (Stellen Sie einfach sicher, dass der Text fokussiert ist, kein OCR wird verschwommenen, nicht fokussierten Text entschlüsseln.)

Geben Sie hier die Bildbeschreibung ein

Klicken Sie auf das Google-Linsensymbol, das über die Vorschau nach der Aufnahme verfügbar ist, oder auf das Foto selbst mit der Google Fotos-App

Geben Sie hier die Bildbeschreibung ein

Hier ist -Skynet- ^M^M^M^M^M^MIch meine, Google Lens macht sein magisches Scannen (die Punkte sind ein bisschen gruselig, aber sie mussten etwas tun, um Sie wissen zu lassen, dass die Google-KI ihr Ding macht, denke ich)

Geben Sie hier die Bildbeschreibung ein

Sobald das Bild gescannt wurde, finden Sie die Textbereiche, die Google Lens auf dem Bild gefunden hat, klar umrissen und deren Text bereits in die untere Hälfte des Bildschirms extrahiert. Wenn Sie nur einige Bereiche möchten und andere nicht, berühren Sie einfach Ihre Auswahl, um sie zu aktivieren/deaktivieren.

Wenn Sie den extrahierten Text berühren, wird er in Ihrer Zwischenablage abgelegt, damit Sie ihn überall auf Ihrem Telefon kopieren und einfügen können.

Geben Sie hier die Bildbeschreibung ein

Fügen Sie anschließend den Text einfach in ein Google Docs - Dokument ein. Dort können Sie: - alle Fehler direkt dort oder auf Ihrem PC korrigieren, - das Dokument nach Herzenslust teilen, - es als Webseite mit Live-Aktualisierung Ihrer Änderungen veröffentlichen oder - in - einfachen Text, - Word-Dokument exportieren , - offenes Office-Dokument, - kindle-kompatibles elektronisches epub -Buch mit umfließendem Text oder - gutes altes Nicht-DRMd-PDF

Man könnte argumentieren, dass dies wahrscheinlich der kürzeste Weg zur Veröffentlichung ist, mit den größtmöglichen Ausgabemöglichkeiten.

Sie könnten alles von einem einzigen Gerät aus erledigen (Android-Telefon mit den entsprechenden installierten Apps) und im Handumdrehen mit einer hohen Genauigkeitsrate damit fertig sein, im Grunde kostenlos.

Hier ist das in Google Docs eingefügte Fragment
Geben Sie hier die Bildbeschreibung ein

Hier ist die URL-Freigabe von Google Docs. Sie können gerne einen Kommentar abgeben. Sie könnten sich auch von jemandem helfen lassen, das Dokument aus der Ferne und gleichzeitig zu bearbeiten.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Schließlich ist hier eine Google Sites-Website, die unter Verwendung des oben genannten Dokuments als verlinkte Quelle veröffentlicht wurde

https://sites.google.com/h-lo.me/ocrsample

Es ist https-, Desktop- und Mobil-fähig und je nach Geschmack im Allgemeinen kein Dorn im Auge. Nicht schlecht für 15 Minuten Gesamtarbeit und überhaupt keine Codierung.


Es bleibt noch eine Verfeinerung übrig, und zwar das Erstellen richtiger Absätze im Google-Dokument, da Google Lens nach jeder Zeile des extrahierten Textes einen harten Zeilenumbruch einfügt, wodurch jede Zeile zu einem eigenen Absatz wird, und dies wird zu einem Problem, wenn Sie es verwenden möchten Google Docs-Funktionen wie das Inhaltsverzeichnis oder wenn Sie Ihr Dokument in ein kindle-kompatibles elektronisches E-Pub-Buch exportieren (verursacht umfließenden Text)

Sie können einfach jede Zeile an geeigneter Stelle verbinden, indem Sie an jedem Zeilenanfang die Rücktaste drücken, oder dies könnte mit einem Skript automatisiert werden.

Also schreibe ich ein Apps-Skript-Add-On, das ich in Kürze veröffentlichen werde, um diesen Prozess zu automatisieren. Ich gebe hier Bescheid, wenn es fertig ist.

Großartiges Detail. Ich mag diese kostenlose Lösung. Danke!
Freut mich! Vielleicht haben Sie sogar schon alles, was Sie brauchen! :)
Für ein dickes Buch ist dies ein sehr arbeitsintensiver Ansatz: Sie müssen jede Seite manuell umblättern und dann fotografieren.

Sie können dies schrittweise tun. Beginnen Sie damit, alles als Seitenscans online zu stellen und zu aktualisieren, wann immer Sie können. Die Kammbindung aus cerlox™-Kunststoff erleichtert das Auseinandernehmen und Wiedereinsetzen in die Bindung.

Da der Druck normaler Serifendruck in derselben Größe zu sein scheint, können die Scans mit Hilfe von Optical Character Recognition-Software digitalisiert werden. OCR kann Ihnen einen Entwurf einer Textdatei geben, die Sie Korrektur lesen und auf der Website in ihrer endgültigen Form veröffentlichen können.

Gleichzeitig können Sie die Bilder und anderes Bildmaterial aufräumen.

Sie können dies tun, sobald Ihnen Zeit/Ressourcen für das Projekt zur Verfügung stehen.

Ähnlich wie die vorherige Antwort, aber nicht so detailliert.
@TrajanEspelien Welche vorherige Antwort? Überprüfen Sie den Zeitstempel. Die Antwort kam zuerst, zwei Tage vor der Hiecuanda-Einreichung. :)
Ja, aber es hat nicht so viele Details wie die andere Antwort, weshalb ich die andere darüber akzeptiert habe. Es ist nicht wer zuerst kommt, mahlt zuerst ... es ist die beste Antwort.
@KyleBridenstine Kein Scherz! Ich habe Hiecuanda auch positiv bewertet. Es war eine großartige Antwort. Übrigens, was ist, wenn Sie kein Android-Telefon haben oder nicht auf Glass zugreifen können? Ich habe eine allgemeine Antwort auf die Frage gegeben. :)
Richtig, wenn Sie einen bestimmten Link zu kostenloser OCR-Software angegeben hätten, hätte das wahrscheinlich Ihre Antwort für mich verkauft. Es ist eine Grauzone. Ich wollte gerade Ihre Antwort akzeptieren, wollte aber warten, damit die Leute immer noch geneigt sind, ihre Lösungen zu veröffentlichen. Aber als ich Hlecuandas Antwort sah, war sie so detailliert, dass ich beschloss, sie zu akzeptieren. Sie haben immer noch eine gute Antwort und ich habe sie definitiv selbst positiv bewertet.
@KyleBridenstine Vielen Dank für die freundlichen Worte. Sind wir uns einig. Ich denke, du hast das Richtige getan, indem du gewartet hast. Die erste Antwort ist NICHT die beste (außer aus irgendeinem Grund. Schließlich gibt es Fristen). Brasilien!
Der Hauptgrund, die detailliertere Antwort nicht zu verwenden, besteht darin, dass ein seitenweiser OCR-Prozess verwendet wird. Sobald Sie alle Seiten gescannt haben, können Sie mit Tesseract (oder etwas, das die Tesseract-Engine verwendet) alle Seiten auf einmal per OCR stapeln, um automatisch ein vollständiges PDF zu erstellen.

Einige gute Antworten hier, um es selbst anzugehen.

Ich möchte meine Erfahrung hinzufügen, jemand anderen dafür zu bezahlen, es für Sie zu tun.

Ich habe Digitize My Books im Vereinigten Königreich verwendet (ich lebe selbst in Großbritannien).

Ich war sehr, sehr zufrieden mit den Ergebnissen: Jedes Buch wird als PDF mit durchsuchbarem (und kopierbarem) Text zurückgegeben. Es wird eine Standard-PDF-Technik verwendet, bei der das Originalbild für jede Seite beibehalten wird, jedoch mit einer Textüberlagerung, sodass Sie den Originaltext auf der Seite hervorheben können. Sehr guter Wert. Als jemand aus dem Vereinigten Königreich im Ausland können Sie ihnen die Bücher immer noch schicken.

Sie bieten auch eine Option für das Buch im bearbeitbaren Word-Dokumentformat an, zu zusätzlichen, aber sehr günstigen Kosten.

Wenn Sie keine Rücksendung des Originals wünschen, ist das destruktive Scannen die günstigste Option. Hier werden die Seiten einzeln aus dem Buch entnommen und eingescannt. Standardmäßig wird das Originalbuch nicht zurückgeschickt, obwohl ich glaube, dass Sie es anfordern können, möglicherweise gegen zusätzliche Kosten (z. B. für das Rückporto), aber die Seiten werden lose sein, da sie entfernt wurden, um einzeln gescannt zu werden. Zerstörendes Scannen ist die Option, die ich für alle meine Bücher gewählt habe, und ich musste die Originale nicht zurücksenden.

Sie bieten auch zerstörungsfreies Kopieren an, wenn Sie das Original benötigen, aber die Kosten sind höher. Sie akzeptieren auch Ihre eigenen digitalen Scans, wenn Sie bereits selbst ein Buch gescannt haben – sie können daraus ein durchsuchbares, kopierfähiges PDF- oder Word-Dokument machen.

Schauen Sie sich auf ihrer Website um. Ich denke wirklich, dass dies die beste Option ist: Geld ausgeben, um Zeit zu sparen, anstatt Zeit damit zu verbringen, Geld zu sparen.

Ich arbeite nicht für Digitize My Books und habe kein finanzielles Interesse daran (Aktionär oder anderweitig).

Ursprünglich hatte ich angefangen, die Bücher selbst zu „scannen“, indem ich mit einer DSLR-Kamera fotografierte (Fotografieren ist schneller als Flachbettscannen), wobei jede Seite mit einer Klemmbrettklammer und einem Blu-Tak offen gehalten wurde. Aber ich fand das ziemlich arbeitsintensiv.

Wenn Sie es immer noch selbst machen möchten, ScanTailor ist eine Open-Source-Windows-Anwendung, die Doppelseiten/Seitenpaare nach dem Scannen in Einzelseiten formatiert, aufteilt, begradigt und "entzerrt". Damit die resultierenden Seiten wie gewünscht flach und gerade erscheinen, wird jedoch keine OCR durchgeführt: Die Ergebnisse sind immer noch Bitmap-Bilder. Aber zumindest reicht es bis zu einem gewissen Grad, das Aufräumen jeglicher Verzerrungen der Seiten stapelweise zu automatisieren, insbesondere beim zerstörungsfreien Kopieren, wo es schwierig ist, die Seiten für große Bücher so anzuordnen, dass sie vollständig flach sind.

Aktualisiert

Weitere Informationen zu den von einem Dienst angebotenen Scanoptionen hinzugefügt. ScanTailor weitere Informationen. Grammatikkorrekturen.

Der schnellste Weg, dies zu tun, besteht darin, Ihren Verwandten zu kontaktieren und zu sehen, ob er noch die Originaldateien hat, mit denen er dieses Buch erstellt hat. Von dem Foto auf der Titelseite würde ich sagen, dass es auf einem Computer gemacht wurde. Konvertieren Sie von {wirklich altes Textverarbeitungspaket hier einfügen} in ein aktuelles Format und Sie sind fertig.

Der zweitschnellste Weg, aus einem Stapel Drucksachen ein digitales Dokument zu machen:

  1. Entfernen Sie die Bindung.
  2. Schneiden Sie die linke Kante der Seiten ab, um die Löcher zu beseitigen. Löcher stören einen Vorlageneinzug.
  3. Gehen Sie durch das Buch und falten Sie alle Knicke und andere Beschädigungen, die einen Vorlageneinzug stören könnten.
  4. Finden Sie einen einigermaßen modernen Duplexdrucker, der über einen Dokumenteneinzug und eine Scanfunktion verfügt. Als PDF scannen.

Verwenden Sie dann ein beliebiges OCR-Paket, um die gescannten Seiten in eine Word-Datei umzuwandeln. Ich verwende zu diesem Zweck die OCR-Funktionen in der Vollversion von Adobe Acrobat, aber es gibt viele OCR-Engines.

Vielleicht möchten Sie einen sehr günstigen Dienst ausprobieren: keep-your-memories.info . Wenn ich es selbst mache, scanne ich mit meinem Scanner in OmniPage, ein OCR-Programm, und speichere es dann als PDF-Datei, die vollständig durchsuchbar ist. Da Ihre Publikation in Kunststoff gebunden ist, lässt sie sich leicht auseinander nehmen, um einzelne Seiten zu scannen und dann erneut zu binden. Das Aufnehmen von Bildern, wie in den obigen Vorschlägen beschrieben, ist ebenfalls sehr praktikabel - ein guter unter vielen Ansätzen.