Ich habe mehrere Textdateien mit sich teilweise überschneidenden Inhalten. Ich möchte sie so kombinieren, dass alle Inhalte in einer Datei enthalten sind, aber so wenig Duplikate wie möglich vorhanden sind. Dieses Tool muss nicht alle Dateien auf einmal verarbeiten, ich begnüge mich damit, Dateipaare einzeln zu verarbeiten.
Das Hauptproblem ist, wenn ich Tools wie Compare++ oder SmartSynchronize und kdiff3 verwende, versuchen sie, einige Blöcke in einer Datei mit Blöcken aus anderen zu überschreiben, während andere Male einfach Blöcke nach Bedarf hinzufügen. Meistens finden sie sogar korrekt die Stelle, an der Text eingefügt werden muss.
Obwohl die Dateien groß sind, bin ich sogar bereit, sie im manuellen Modus zusammenzuführen, aber mir fehlt die Funktion, mit der ich den Block beispielsweise vom rechten zum linken Bedienfeld hinzufügen kann, anstatt ihn zu ersetzen. Einige Blöcke, die zum Ersetzen "empfohlen" werden, sind sinnvoll, andere scheinen zufällig.
Ich möchte keine Zeichenfolge durch eine andere ersetzen, wenn sie völlig unterschiedlich sind, ich möchte diese beiden Zeichenfolgen in der resultierenden Datei haben!
Natürlich muss das Werkzeug so „intelligent“ wie möglich sein, um Stellen zum Einsetzen zu erkennen. Denn Textzeilen können im nächsten Fall beliebig angeordnet werden
A B
B C
C A
Das Tool darf das A
rechte Panel nicht als diff behandeln und muss klar verstehen, dass es dasselbe ist A
wie im linken Panel.
Plattform ist Windows.
Gibt es ein gutes Tool, um (fast) doppelte Blöcke in einer einzelnen Datei zu finden? Wie eine Voreinstellung für "Unschärfe", die es Blöcken ermöglicht, sich um N Symbole zu unterscheiden.
Es ist ein zweistufiger Prozess. Fassen Sie zunächst alle Textdateien zu einer zusammen . Laden Sie die Datei in ein Tool wie http://text-analyser.com für Natural Language Processing (NLP) hoch. Das Tool zerlegt alle Sätze in Zeilen. Klicken Sie im Textanalyse-Tool auf die Schaltfläche Exportieren . Das erzeugt eine Excel-Datei. Entfernen Sie dann die anderen Spalten in der Excel-Datei, sodass Sie die Spalte mit Sätzen isolieren, und speichern Sie diese dann als .TAB-separierte Datei. Laden Sie diese Datei auf http://text-analyser.com hoch und klicken Sie auf die Option Duplikate entfernen . Während des Imports entfernt das Tool alle doppelten Sätze. Klicken Sie auf der Registerkarte Datei auf den Dateinamen in der HTML-Tabelle ... diese heruntergeladene Datei ist asaubere/duplikatfreie Datei mit Sätzen ! Hoffe, das hilft jemandem, der nach einer Lösung für dieses Problem sucht.
Steve Barnes
Dschungel_Maulwurf
edit
DJCrashdummy