Bibliothek/Dienst zur Bewertung der Komplexität eines englischen Satzes

Ich möchte eine riesige Datenbank mit kurzen englischen Sätzen in eine Lernsoftware importieren.
Ich muss Sätze in einige "Schwierigkeitsgrade" einteilen (Schwierigkeit für einen Nicht-Muttersprachler, den Satz zu verstehen).

  • "Mein Name ist Joe und ich mag Ponys, Hunde, Katzen, Hasen und Pilze." → 0,1
  • "Ich möchte die Komplexität dieses Satzes bewerten." → 0,5
  • "Hüten Sie sich vor denen, deren Stimme genau dieses Edikt ersetzt." → 0,9

... oder ein ähnliches Bewertungssystem.

Ein guter Algorithmus würde Folgendes berücksichtigen:

  • die Schwierigkeit jedes Begriffs (Coelacanth ist schwieriger als Goldfisch, weil er seltener in Büchern verwendet wird, insbesondere in Kinder-/Jugendbüchern. Wille ist schwieriger als Bereitschaft, weil er Synonyme hat usw.) Diese müssten aus einem
    Vor- etablierte Datenbank ( das könnte helfen ).
  • die Schwierigkeit der Grammatik und Konjunktionen (das ist schwieriger als und).
  • idealerweise die Komplexität von In-Satz-Referenzen (Satz, in dem sich mehrere Ausdrücke aufeinander beziehen und einen komplexen Graphen bilden, wobei der erstere zunächst unklar ist, der letztere später jedoch verstanden wird ... oder nicht)
  • Satzlänge. Dies dient zum Auswendiglernen, sodass ein doppelt so langer Satz genauso gut als doppelt so schwierig angesehen werden kann.
  • Andere Parameter könnten auch nützlich sein.

Anforderungen:

  • Kann rund 1.000.000 Einträge innerhalb weniger Wochen verarbeiten
  • Frei.

Bonus:

  • Webdienst akzeptabel, aber Bonus, wenn er vor Ort ausgeführt werden kann.
  • Prämie für Open Source.
  • Bonus, wenn auch andere Sprachen unterstützt werden.

OGTE fragt mich nach einem Satz und einer Schulstufe und sagt mir dann, ob es passt oder nicht. Ich hätte gerne ein Tool, das mich nach einem Satz fragt und mir sagt, zu welcher Schulstufe er passt.

Bewerten Sie die Komplexität der Sätze anhand der „Schwierigkeit“ der verwendeten Wörter, der Satzlänge, der Struktur oder einer Kombination dieser Faktoren?
@Qantas94Heavy: Hinzugefügt im Abschnitt "Ein guter Algorithmus würde berücksichtigen:".

Antworten (1)

Du stellst eigentlich zwei Fragen:

  • Was ist ein guter Algorithmus, um zu bestimmen, was meiner Meinung nach die Komplexität eines Satzes in englischer Sprache ist?
  • Was ist ein Programm, das diesen Algorithmus anwendet?

Die erste Frage ist sehr schwer zu beantworten, die zweite ist recht einfach, sobald die erste beantwortet ist.

Ein Werkzeug, das verschiedene Algorithmen anwendet, ist das folgende. Es ist kostenlos, kann komplette Texte auswerten und man bekommt den Namen der Algorithmen. Ich schlage vor, Sie lesen die von mir verlinkten Wikipedia-Seiten und versuchen herauszufinden, was Ihren Bedürfnissen am besten entspricht.

readability-score.com

Mein Name ist Joe und ich mag Ponys, Hunde, Katzen, Hasen und Pilze.

Ich möchte die Komplexität dieses Satzes bewerten.

  • Flesch-Kincaid-Lesekomfort: 47,3
  • Flesch-Kincaid-Notenstufe: 8,9
  • Gunning-Fog-Score: 12,5
  • Coleman-Liau-Index: 11,7
  • SMOG-Index: 8.3
  • Automatisierter Lesbarkeitsindex: 5.1

Hüten Sie sich vor denen, deren Stimme genau dieses Edikt ersetzt.

  • Flesch-Kincaid-Lesekomfort: 61,2
  • Flesch-Kincaid-Notenstufe: 6,7
  • Gunning-Fog-Score: 8,2
  • Coleman-Liau-Index: 16,6
  • SMOG-Index: 6
  • Automatisierter Lesbarkeitsindex: 8.5
Flesch-Kincaid und Gunning-Fog sind wirklich zu primitiv. Coleman-Liau , SMOG und Automated Readability Index sind darauf ausgelegt, einen langen Text/ein langes Buch zu analysieren und verlieren ihren ganzen Wert, wenn sie auf einen einzelnen Satz angewendet werden. Ich glaube, ich brauche wirklich eine Bibliothek, die eine vorgefertigte Datenbank mit englischen Wörtern im Schwierigkeitsgrad verwendet. Schöner Fund, und es ist Open Source: github.com/DaveChild/Text-Statistics
OGTE scheint eine ERF-bewertete Leserskala plus Feedback von Benutzern zu verwenden .