Wie bekomme ich den Differenztext von zwei E-Books in reinen Text konvertiert? Es handelt sich bei beiden um das gleiche Buch, aber in unterschiedlichen Ausgaben, so dass ein Großteil des Textes bis auf die Änderungen der Silbentrennung und Zeichensetzung genau gleich ist.
Ich habe die vorherige Ausgabe gelesen, daher möchte ich jetzt nur die Änderungen der neuen Ausgabe überfliegen und nicht die gesamte neue Ausgabe noch einmal lesen. Und das könnte nicht nur für ein Buch hilfreich sein, sondern für viele!
Dinge, die ich gefunden habe, aber sie lösen die Aufgabe nicht:
Jedes lokale Betriebssystem oder ein entfernter Online-Dienst reicht aus.
Angenommen, Sie können dafür ein Konsolenprogramm verwenden, würde ich vorschlagen vimdiff
. Es ist ein mit dem Vim -Editor gepacktes Tool , das zwei Dateien als Eingabe nimmt und sie Seite an Seite mit synchronisiertem Scrollen und spezieller Hervorhebung präsentiert, um zu markieren, welche Zeilen unterschiedlich sind und was sich tatsächlich in einer Zeile geändert hat. Es ist intelligent genug, um das Verschieben von Textblöcken (aber nicht unbedingt komplexe Neuordnungen von Text) zu handhaben, und faltet (versteckt) auch automatisch Abschnitte der beiden Dateien, die identisch sind.
Abhängig davon, wie der Text in diesen beiden E-Books tatsächlich fließt, haben Sie möglicherweise Probleme, Unterschiede zu finden. Wenn zum Beispiel eine Reihe von Absätzen in einem Abschnitt in einer völlig anderen Reihenfolge sind, aber ansonsten identisch sind, erkennen viele Tools nicht, dass sie gleich sind (vielleicht erkennen sie einen von ihnen, aber nicht alle). Dies ist einfach ein Nebeneffekt der Funktionsweise von Vergleichstools, und Sie werden wahrscheinlich kein Tool finden, das das Auffinden solcher Unterschiede richtig automatisieren kann (und wenn Sie dies tun, ist es wahrscheinlich äußerst spezifisch in dem, was es tut).
Auch kleine Randnotiz, aber diff
nicht 'nur für Software-Quellcode'. Es hat einfach Schwierigkeiten, natürlich fließenden Text zu handhaben (wie Sie es in den meisten E-Books finden werden, selbst wenn es in einfachen Text konvertiert wird), weil es zeilenorientiert und nicht wortorientiert ist.
unoder
Mna
onurcano
Mna