Beurteilung der Ähnlichkeit zwischen Schriftproben

Ich habe gestern Abend über die Möglichkeit eines Experiments nachgedacht, das die Faktoren untersucht, die zu den Urteilen der Menschen über „stilistische Ähnlichkeit“ zwischen zwei Schriftbeispielen beitragen. Ein solches Experiment könnte beispielsweise aus mehreren Versuchen für jedes Thema bestehen, von denen jeder einen anderen Satz von, sagen wir, 3 kurzen Auszügen aus Texten präsentiert (Text, der zufällig aus einem Korpus von Autorentexten ausgewählt wurde ... vielleicht nicht mehr als 500 Wörter jeder). Jeder Teilnehmer würde gebeten, ein Urteil darüber abzugeben: "Welche 2 dieser Schriften sind sich im Stil am ähnlichsten?" ODER "Welche 2 dieser Schriften wurden höchstwahrscheinlich von derselben Person erstellt?".

Ein Teil der Datenanalyse und -interpretation könnte die Verwendung von Programmen beinhalten, die diesem ähneln: http://www.hackerfactor.com/GenderGuesser.php . Forscher könnten Hypothesen über Faktoren auf relativ niedriger Ebene bilden, die bei der Beurteilung der stilistischen Ähnlichkeit von Menschen wichtig sein könnten, und dann Programme schreiben, die auf der Grundlage dieser Faktoren auf niedriger Ebene Urteile fällen würden.

Ich gehe davon aus, dass in der Vergangenheit Forschungen durchgeführt wurden, die dem ähneln oder sogar perfekt zu dem passen, was ich oben beschrieben habe. Hat jemand nach dem Lesen, was ich oben geschrieben habe, irgendwelche Vorschläge für relevante Lektüre?

Ich denke, das klingt wirklich interessant, es ist fast wie "natürliche" Verarbeitung natürlicher Sprache. NLP könnte Ihnen einige Denkanstöße darüber geben, welche Merkmale möglicherweise für einen menschlichen Leser auffallend sein könnten, basierend auf dem, was statistisch für den Computer funktioniert.

Antworten (1)

Es hört sich so an, als ob Sie von Latent Semantic Analysis sprechen . Hier ist ihr Überblick darüber, was es ist.

LSA, wie es derzeit praktiziert wird, weist jedoch einige zusätzliche Einschränkungen auf. Es macht keinen Gebrauch von der Wortstellung, also von syntaktischen Beziehungen oder Logik, oder von Morphologie. Bemerkenswerterweise gelingt es ihm ohne diese Hilfsmittel recht gut, korrekte Wiedergaben von Passagen und Wortbedeutungen zu extrahieren, aber es muss immer noch an einigen Stellen der Unvollständigkeit oder wahrscheinlichen Fehler verdächtigt werden.

Es wird in vielen automatisierten Bewertungsprogrammen oder Systemen verwendet, die darauf ausgelegt sind, Papier basierend auf bestimmten Kriterien zu bewerten. Da die Reihenfolge jedoch keine Rolle spielt, ist die syntaktische und grammatikalische Kohärenz viel schwieriger zu messen, sodass die Quantifizierung von „Stil“ möglicherweise etwas schwierig ist, es sei denn, Sie meinen mit „Stil“ so etwas wie Wortwahl, Phrasenwahl usw.

Hier ist eine gscholar-Suche . Die ersten drei sollten einen guten Überblick geben.

Willkommen auf der Website. Ich denke, das OP ist mehr an Studien zu den Ähnlichkeitsbeurteilungen von Menschen interessiert, nicht so sehr an den Softwareimplementierungen der Stilidentifikation (er scheint sie nur in Bezug auf die Bildung einer Basislinie zu erwähnen). Können Sie Ihre Antwort bearbeiten, um den Teil des menschlichen Urteils klarer anzusprechen?