Ich suche nach Software, die Plagiate erkennt und die folgenden Eigenschaften hat:
Schön zu haben:
Völlig bereit, aus dem Quellcode, allen vernünftigen Sprachen zu kompilieren oder stattdessen einfach eine Python-Bibliothek zu verwenden.
Falls es nicht klar war, möchte ich nur, dass es Plagiate aus den Quellen erkennt, die ich ihm übergebe. Kennt jemand eine solche Software?
Dies ist ein Tool, das all dies tut: http://ssdeep.sourceforge.net
Es ist hauptsächlich für die Computerforensik konzipiert - zum Aufspüren ähnlicher, modifizierter, optimierter oder abgeschnittener Dateien.
Ich habe es erfolgreich zur Spam-Bekämpfung eingesetzt, indem ich E-Mails erkannt habe, die im Vergleich zu anderen E-Mails und Spam-Beispielen geringfügig bis erheblich verändert wurden.
Ich denke, es wird Ihrem Zweck entsprechen, da es eine abstimmbare "Empfindlichkeit" für Änderungen aufweist und ähnliche Fragmente erkennen kann, siehe hier zur Demonstration:
http://ssdeep.sourceforge.net/usage.html#needles
Warnung: Ich habe die gemeinsam genutzte Bibliothek direkt über Python cffi ( https://cffi.readthedocs.org/en/latest/ ) verwendet, nicht das Befehlszeilentool selbst, obwohl ssdeep über ein Befehlszeilendienstprogramm verfügt. Dennoch war die Verwendung von cffi zum Ausführen von ssdeep-Bibliotheksaufrufen leistungsfähiger als die Befehlszeile und auch sehr einfach.
Ich dachte, dass Sie wahrscheinlich Python und das SciPy NLTK verwenden könnten , um eine Liste von Sätzen aus jedem Ihrer Texte zu erstellen, von denen Sie erwägen, dass die Verwendung von Tokenize ein Plagiat sein könnte - ich würde vorschlagen, Satzzeichen aus ihnen zu entfernen und alle mit weniger als auszuschließen 5 oder 6 Wörter und speichert sie, möglicherweise mit Hinweisen darauf, wo sie im Ausgangstext vorkommen.
Sie könnten dann denselben Algorithmus auf Ihre verdächtigen Texte anwenden und nach Übereinstimmungen suchen.
Steve Barnes
soandos
kenorb