Tool zum Zusammenführen von Textdateien

Ich habe mehrere Textdateien mit sich teilweise überschneidenden Inhalten. Ich möchte sie so kombinieren, dass alle Inhalte in einer Datei enthalten sind, aber so wenig Duplikate wie möglich vorhanden sind. Dieses Tool muss nicht alle Dateien auf einmal verarbeiten, ich begnüge mich damit, Dateipaare einzeln zu verarbeiten.

Das Hauptproblem ist, wenn ich Tools wie Compare++ oder SmartSynchronize und kdiff3 verwende, versuchen sie, einige Blöcke in einer Datei mit Blöcken aus anderen zu überschreiben, während andere Male einfach Blöcke nach Bedarf hinzufügen. Meistens finden sie sogar korrekt die Stelle, an der Text eingefügt werden muss.

Obwohl die Dateien groß sind, bin ich sogar bereit, sie im manuellen Modus zusammenzuführen, aber mir fehlt die Funktion, mit der ich den Block beispielsweise vom rechten zum linken Bedienfeld hinzufügen kann, anstatt ihn zu ersetzen. Einige Blöcke, die zum Ersetzen "empfohlen" werden, sind sinnvoll, andere scheinen zufällig.

Ich möchte keine Zeichenfolge durch eine andere ersetzen, wenn sie völlig unterschiedlich sind, ich möchte diese beiden Zeichenfolgen in der resultierenden Datei haben!

Natürlich muss das Werkzeug so „intelligent“ wie möglich sein, um Stellen zum Einsetzen zu erkennen. Denn Textzeilen können im nächsten Fall beliebig angeordnet werden

A B

B C

C A

Das Tool darf das Arechte Panel nicht als diff behandeln und muss klar verstehen, dass es dasselbe ist Awie im linken Panel.

Plattform ist Windows.

Gibt es ein gutes Tool, um (fast) doppelte Blöcke in einer einzelnen Datei zu finden? Wie eine Voreinstellung für "Unschärfe", die es Blöcken ermöglicht, sich um N Symbole zu unterscheiden.

KDiff3 hat eine Option zum Einfügen von Text von a und dann von b bei jedem Unterschied, aber das Problem wird sein, wenn es feststellt, dass sich zwei Absätze nur in einer Zeile unterscheiden, es wird den Unterschied/die Zusammenführung auf Zeilenebene und nicht auf Absatzebene vorschlagen. Sie könnten dies möglicherweise umgehen, indem Sie die Eingabefilter verwenden, um Zeilenumbrüche innerhalb von Absätzen zu entfernen und später wieder umzubrechen.
@SteveBarnes ja, es "mischt" auch Saiten auf seltsame Weise (so sieht es für mich aus). und es kann ein Problem mit in Dateien ausgetauschten Textblöcken nicht lösen (mein Beispiel mit AB BC CA). Es scheint, als müsste ich meine 3-4 Stunden nehmen und alles halbmanuell machen. Ich muss nur eine Methodik entwickeln. auch, bitte sehen Sie meineedit
vielleicht könnte WinMerge für dich interessant sein...

Antworten (1)

Es ist ein zweistufiger Prozess. Fassen Sie zunächst alle Textdateien zu einer zusammen . Laden Sie die Datei in ein Tool wie http://text-analyser.com für Natural Language Processing (NLP) hoch. Das Tool zerlegt alle Sätze in Zeilen. Klicken Sie im Textanalyse-Tool auf die Schaltfläche Exportieren . Das erzeugt eine Excel-Datei. Entfernen Sie dann die anderen Spalten in der Excel-Datei, sodass Sie die Spalte mit Sätzen isolieren, und speichern Sie diese dann als .TAB-separierte Datei. Laden Sie diese Datei auf http://text-analyser.com hoch und klicken Sie auf die Option Duplikate entfernen . Während des Imports entfernt das Tool alle doppelten Sätze. Klicken Sie auf der Registerkarte Datei auf den Dateinamen in der HTML-Tabelle ... diese heruntergeladene Datei ist asaubere/duplikatfreie Datei mit Sätzen ! Hoffe, das hilft jemandem, der nach einer Lösung für dieses Problem sucht.