Ein Linux-Tool / Dienstprogramm zum Identifizieren von Nicht-Stoppwörtern in englischem Text

Gibt es ein Tool, an das ich eine Textdatei oder eine andere Datei senden kann, die ungewöhnliche Wörter (nicht in einer Stoppwortliste) unter Linux identifiziert?

Beispielsweise werden Wörter, die im Allgemeinen in englischer Sprache vorkommen, ausgeschlossen, aber Wörter aus dem Fachjargon werden als durchgehende ( ungewöhnliche) Wörter mit einer Anzahl angezeigt. Groß- und Kleinschreibung sollte ebenfalls beachtet werden.

Hier ist ein Beispiel dafür, was ich meine ...

Wenn ich den Satz habe:

„Tommy programmierte in Powershell, PowerShell, C++ und SQL, während er VirtualBox auf seiner VirtualBox verwendete.“

Dann würde es ein Ergebnis wie dieses zurückgeben:

1, Powershell
1, PowerShell
1, C++
1, SQL
2, VirtualBox

Ich schätze, ich versuche, die Groß- und Kleinschreibung der ungewöhnlichen Wörter zu standardisieren, und das Tool nimmt den Text und versucht, ihn zu finden. Wenn ich ihn also korrigiere, weiß ich, dass ich alles verstanden habe.

Mir ist bewusst, dass Sie mit vim nach Dingen suchen können, aber es ist viel einfacher, nichts zu übersehen, wenn Sie bereits eine Liste mit zu ignorierenden Wörtern (Stoppwörtern) haben, die es einfach macht, die Stoppwörter von den eindeutigen zu trennen.

(Und natürlich können Sie Wörter wie „Ruby“ jederzeit aus der Stoppwortliste entfernen, damit sie auch angezeigt werden, wenn Sie sie brauchen.)

Ich meine, alles, was Sie brauchen, ist eine Liste mit Wörtern und ein Skript, um sie durchzugehen, aber ich dachte, ich würde fragen, ob es dafür nicht bereits ein vorgefertigtes Tool gibt.

en.wikipedia.org/wiki/Stop_words sagt, dass es keine einzige universelle Liste von Stoppwörtern gibt, aber ich denke, der Fragesteller wird mit jeder Liste einverstanden sein, die einen vernünftigen Job macht?

Antworten (1)

Das Python Natural Language Tool Kit nltk ist hier wahrscheinlich die beste Wahl. Es gibt Beispiele für Dinge, die Sie im Online-Buch versuchen, wie das Beispiel mit ungewöhnlichen Wörtern .

  • Es gibt viel Unterstützung für das Zählen von Ereignissen
  • Ich würde vorschlagen, dass Sie Prüfungen ohne Berücksichtigung der Groß-/Kleinschreibung verwenden, um die "häufigen" Wörter zu entfernen, bevor Sie die Groß- und Kleinschreibung beachten.
  • Es ist Python also verfügbar für Linux und so ziemlich alles andere .