Ich habe gestern Abend über die Möglichkeit eines Experiments nachgedacht, das die Faktoren untersucht, die zu den Urteilen der Menschen über „stilistische Ähnlichkeit“ zwischen zwei Schriftbeispielen beitragen. Ein solches Experiment könnte beispielsweise aus mehreren Versuchen für jedes Thema bestehen, von denen jeder einen anderen Satz von, sagen wir, 3 kurzen Auszügen aus Texten präsentiert (Text, der zufällig aus einem Korpus von Autorentexten ausgewählt wurde ... vielleicht nicht mehr als 500 Wörter jeder). Jeder Teilnehmer würde gebeten, ein Urteil darüber abzugeben: "Welche 2 dieser Schriften sind sich im Stil am ähnlichsten?" ODER "Welche 2 dieser Schriften wurden höchstwahrscheinlich von derselben Person erstellt?".
Ein Teil der Datenanalyse und -interpretation könnte die Verwendung von Programmen beinhalten, die diesem ähneln: http://www.hackerfactor.com/GenderGuesser.php . Forscher könnten Hypothesen über Faktoren auf relativ niedriger Ebene bilden, die bei der Beurteilung der stilistischen Ähnlichkeit von Menschen wichtig sein könnten, und dann Programme schreiben, die auf der Grundlage dieser Faktoren auf niedriger Ebene Urteile fällen würden.
Ich gehe davon aus, dass in der Vergangenheit Forschungen durchgeführt wurden, die dem ähneln oder sogar perfekt zu dem passen, was ich oben beschrieben habe. Hat jemand nach dem Lesen, was ich oben geschrieben habe, irgendwelche Vorschläge für relevante Lektüre?
Es hört sich so an, als ob Sie von Latent Semantic Analysis sprechen . Hier ist ihr Überblick darüber, was es ist.
LSA, wie es derzeit praktiziert wird, weist jedoch einige zusätzliche Einschränkungen auf. Es macht keinen Gebrauch von der Wortstellung, also von syntaktischen Beziehungen oder Logik, oder von Morphologie. Bemerkenswerterweise gelingt es ihm ohne diese Hilfsmittel recht gut, korrekte Wiedergaben von Passagen und Wortbedeutungen zu extrahieren, aber es muss immer noch an einigen Stellen der Unvollständigkeit oder wahrscheinlichen Fehler verdächtigt werden.
Es wird in vielen automatisierten Bewertungsprogrammen oder Systemen verwendet, die darauf ausgelegt sind, Papier basierend auf bestimmten Kriterien zu bewerten. Da die Reihenfolge jedoch keine Rolle spielt, ist die syntaktische und grammatikalische Kohärenz viel schwieriger zu messen, sodass die Quantifizierung von „Stil“ möglicherweise etwas schwierig ist, es sei denn, Sie meinen mit „Stil“ so etwas wie Wortwahl, Phrasenwahl usw.
Hier ist eine gscholar-Suche . Die ersten drei sollten einen guten Überblick geben.
Chuck Sherrington