Ich suche ein Tool, das identische Phrasen in einem langen Text wie einer Dissertation findet und auflistet.
Ziel ist es, sich wiederholende Texte zu finden, die versehentlich per Copy/Paste entstanden sind.
Es muss unbedingt ein Offline - Tool sein, da ich kein Online-Tool verwenden möchte, bei dem mein Text verarbeitet und möglicherweise auf einem Server unter fremder Kontrolle gespeichert wird.
Es hängt davon ab, wie viel Sie sich einbringen möchten und wie groß das Projekt ist. Wenn nur identische Sätze oder Text gefunden werden, unterstützen die meisten Textverarbeitungsprogramme dies, und schließlich unterstützen viele Programmier-IDEs die Suche nach regulären Ausdrücken ( http://en.wikipedia.org/wiki/Regular_expression ). Wenn Sie andererseits nach umformulierten oder ähnlichen Absätzen und/oder Auszügen suchen und dies automatisieren möchten (anstatt manuell Substrings zu erstellen und nach Variationen zu suchen), würde ich Ihnen empfehlen, sich http://www.nltk.org anzusehen /
NLTK
ist ein Toolkit, das eine ganze Reihe von Sprachmanipulations-, Sortier- und Tagging-Tools integriert - ich weiß, dass es möglicherweise ausführlicher ist, als Sie möchten (aber es ist ziemlich einfach zu erlernen und hat eine sehr gute anfängerfreundliche Dokumentation http:// www.nltk.org/book/ ).
Ich überlasse es anderen, allgemeinere und vielleicht eher gebrauchsfertige Tools zu kommentieren, da ich damit keine Erfahrung habe.
Dies ist eine der Hauptfunktionen des Programms ClicheCleaner , das Passagen in Ihrem Text hervorhebt, die entweder Klischees, andere übermäßig verwendete allgemeine Ausdrücke oder eigene Phrasen sind, die Sie wiederholt innerhalb desselben Dokuments verwendet haben. ClicheCleaner enthält eine Liste von fast 7000 einzigartigen Klischees und gebräuchlichen Ausdrücken, die mit Ihrem Text verglichen werden.
Derzeit funktioniert es nur mit Textdateien; Eine derzeit in Arbeit befindliche neue Version ermöglicht die Bearbeitung von Text-, Word- und PDF-Dateien innerhalb des Dokuments.
Es läuft auf allen Versionen von Windows.
Offenlegung: Ich bin der Autor dieses Programms.
Wie @user3467349 feststellt, sind reguläre Ausdrücke (regexes) Ihr (komplizierter) Freund. Es ist eine ziemliche Lernkurve erforderlich, aber es lohnt sich, wenn Sie eine erhebliche Menge an Textsuchen oder -änderungen durchführen müssen. Viele Tools unterstützen ihre Verwendung (und einige verwenden leicht unterschiedliche Dialekte für ihre Syntax).
Wenn Sie Zugriff auf ein Linux-System haben (wo es fast immer standardmäßig installiert wird – ich gehe davon aus, dass es auch auf OS X installiert werden muss, aber ich verwende dieses Betriebssystem nicht) oder auf ein Paket von Tools für Ihr Betriebssystem (z als Cygwin für Windows), dann ist der Ausgangspunkt der grep
Befehl (globaler regulärer Ausdruck drucken). Es kann fast alles finden, sobald Sie die Grundlagen von Regexes kennen. Es gibt auch einen obskureren Befehl, agrep
, der darauf spezialisiert ist, Dinge zu finden, die "wie" andere Dinge sind, aber ich habe ihn noch nicht benutzt.
Eine andere Alternative ist, wenn Sie die Programmiersprache perl
auf Ihrem System haben oder installieren können (sollte für fast alle Betriebssysteme verfügbar sein), unterstützt sie ihren eigenen Dialekt regulärer Ausdrücke, von denen ich glaube, dass sie die leistungsstärkste Version sind. Es ist einfach, auf die Funktion für reguläre Ausdrücke von Perl zuzugreifen, ohne viel über den Rest der Sprache zu wissen.
Wenn Sie Zugriff auf ein Linux-System haben, wird der Befehl
info sed
zeigt Anweisungen zur Verwendung des sed
Tools (das Sie im Moment nicht benötigen). Aber wenn Sie in dieser Hilfedatei ganz nach unten scrollen, finden Sie einen ziemlich detaillierten Abschnitt, in dem erklärt wird, wie Sie reguläre Ausdrücke verwenden. Dies wird auch direkt auf die Verwendung übertragen grep
.
Benutzer5645
Meistens harmlos
Benutzer5645