Sollen Wörter nur durch endliche und linear strukturierte Grapheme dargestellt werden?

Da ich weiß, dass die Wörter einer geschriebenen Sprache durch Kombinationen von Symbolen (z. B. Buchstaben eines Alphabets) dargestellt werden können, würde mich interessieren, welche strukturellen Einschränkungen es für einzelne Wörter gibt. Konkret habe ich zwei Fragen:

1) Kann eine geschriebene Sprache im Prinzip unendlich viele Wörter enthalten?

2) Kann eine Sprache im Prinzip einige Wörter enthalten, die nur durch eine nichtlineare Buchstabenstruktur repräsentiert werden? Kann zum Beispiel das folgende Konglomerat von Symbolen als "Wort" betrachtet werden, wenn wir davon ausgehen, dass Mathematik eine Sprache ist?

\int_{a}^{b}{e^{x}}dx

Das scheint interessant zu sein. amazon.com/…
Weitere Informationen zu diesem Buch. agnesscott.edu/lriddle/women/abstracts/karp_abstract.htm
Siehe Chinesisch und Hieroglyphe : Nicht jede Sprache verwendet Buchstaben eines Alphabets.
Über die Verwendung einer unendlichen Folge von Symbolen zur Darstellung eines Wortes in einer Sprache: Wie schreibt/äußert man einen Satz, wenn das erste Wort niemals enden wird?
Ihr Integral kann in LaTeX-Markup als typische Folge von Symbolen geschrieben werden (pedantische Anmerkung: Bearbeiten Sie, um "lineare Kombinationen" zu entfernen). Wörter sind endliche Folgen von Symbolen aus einem endlichen Alphabet, keine linearen Kombinationen, was eine ganz andere Sache ist. Das Alphabet wird normalerweise \Sigma genannt, wobei das freie Monoid von Folgen \Sigma^* geschrieben wird. Dann ist eine Sprache L die Teilmenge von \Sigma^*, die die wffs von L umfasst.)
Ich würde vorschlagen, dass die vokale Beugung Teil jeder Sprache ist. Wenn Sie ein unartikuliertes Heulen wirklich genau und in allen Details darstellen wollten, wären möglicherweise unendlich viele Dekorationen erforderlich, und viele davon wären diakritische oder grafische Ausarbeitungen und daher nicht linear platziert. Sprache ist nicht natürlich geschrieben , daher kommt die Frage irgendwie von einem seltsamen Ort. Natürlich „runden“ wir beim Aufzeichnen von Ausdrücken an irgendeinem Punkt reale Klänge auf eine verfügbare Anordnung von Symbolen ab, aber die Art der Annäherung ist nicht festgelegt.
Dies hängt weitgehend davon ab, was Sie eine Sprache nennen würden. Vielleicht ist Linguistik eine bessere Seite dafür. Übrigens ist vokalisiertes Hebräisch nichtlinear.
@Mauro ALLEGRRANZA, Periodische Zahlen wie 89.898989(89) können eines der Beispiele dafür sein, wie man Wörter mit unendlichen Folgen von Symbolen schreibt/ausspricht.
@ John Forkosh. Zugegeben, dieses Integral kann mit einigen zusätzlichen Regeln, wie es konvertiert werden muss, in die lineare Struktur von LaTeX-Symbolen konvertiert werden. Und dieses Integral im LaTeX-Format sollte so aussehen: \int_{a}^{b}e^{x}dx Allerdings scheint es mir eine willkürliche Entscheidung zu sein, dass bei dieser Umwandlung ein Zeichen 'a' vorangestellt werden muss ein Symbol 'b' und nicht umgekehrt.
Was ist das Problem bei "willkürlicher Entscheidung"? Und außerdem liegen Sie falsch :) -- \int^b_a funktioniert genauso gut. Und noch allgemeiner als LaTeX-Markup könnten Sie beispielsweise netPBM "Markup" en.wikipedia.org/wiki/Netpbm_format#PBM_example verwenden, um irgendein Bild syntaktisch darzustellen . Das könnte ein Bild sein, das gescannten Text darstellt, also Wörter. Oder es könnte die Mona Lisa oder irgendein anderes Bild sein. Symbolfolgen können also so ziemlich alles darstellen.
@John Forkosh Mein Punkt ist, dass zwei beliebige Elemente in einer linearen Struktur die Präzedenz-/Folge-Beziehung haben müssen. Zum Beispiel steht in \int^b_a 'b' vor 'a' und in \int_a^b 'a' vor 'b'. In der Integralformel existiert diese Beziehung zwischen 'a' und 'b' jedoch einfach nicht.
Nun, ja, syntaktisch muss ein Symbol einem anderen in einer Sequenz vorangehen/folgen. Aber semantisch können beide Varianten dasselbe bedeuten, zB 2+3=3+2 sowie \int_a^b=\int^b_a, etc, etc. In der denotationalen Semantik gibt es eine sogenannte "Semantik". Funktion", die Syntax-->Semantik abbildet. Und es sind die Eigenschaften dieser Abbildung, die Sie studieren möchten.
Ja, die Integralformel ist möglicherweise nicht die beste Wahl, um eine nicht schlankere Struktur zu veranschaulichen. Wahrscheinlich würde ein musikalischer Akkord besser zu diesem Zweck passen.
Ja, Notenschrift scheint ein besseres Beispiel zu sein. Aber solange wir über LaTeX sprechen, möchte ich Sie daran erinnern, dass es dafür sogar LaTeX-Markup gibt, z. B. stackoverflow.com/questions/648429/typesetting-music-in-latex . So oder so passiert nichts.
89.898989(89) ist keine unendliche Folge von Symbolen: Sie ist eindeutig endlich . Und bei "die Konstante e wird eigentlich durch die unendliche Ziffernfolge dargestellt: 2,71828 ...." ist es umgekehrt: Die Zahl e (ihr Name ist eindeutig eine endliche Zeichenkette) lässt sich mit einer Folge berechnen von Ziffern, die mit 2.71828 beginnen.
Diese Frage zeigt keinen Forschungsaufwand und ist nur interessant, wenn wir eine tiefgreifende Motivation für ihre Frage vermuten -1
@MATHMETICIAN Bitte schlagen Sie mir Literatur oder Referenzen vor, die sich auf meine Frage beziehen.

Antworten (6)

Ich bin kürzlich auf den Begriff Morphem gestoßen

In der Linguistik ist ein Morphem die kleinste grammatikalische Einheit in einer Sprache. Mit anderen Worten, es ist die kleinste sinnvolle Einheit einer Sprache. Das den Morphemen gewidmete Studiengebiet heißt Morphologie. Ein Morphem ist nicht identisch mit einem Wort, und der Hauptunterschied zwischen den beiden besteht darin, dass ein Morphem allein stehen kann oder nicht, während ein Wort per Definition freistehend ist. Wenn es für sich allein steht, wird es als Wurzel betrachtet, weil es eine eigene Bedeutung hat (z. B. das Morphem Katze), und wenn es von einem anderen Morphem abhängt, um eine Idee auszudrücken, ist es ein Affix, weil es eine grammatikalische Funktion hat (z das –s in Katzen, um anzuzeigen, dass es Plural ist).[1] Jedes Wort besteht aus einem oder mehreren Morphemen.

In Bezug auf das Konzept eines Wortes ist es auch interessant, den Begriff in einem Informatikkontext zu beachten, in dem die Wortgröße berücksichtigt wird.

Beim Rechnen ist ein Wort die natürliche Dateneinheit, die von einem bestimmten Prozessordesign verwendet wird. Ein Wort ist ein Datenstück fester Größe, das vom Befehlssatz oder der Hardware des Prozessors als Einheit behandelt wird. Die Anzahl der Bits in einem Wort (die Wortgröße, Wortbreite oder Wortlänge) ist ein wichtiges Merkmal jedes spezifischen Prozessordesigns oder jeder Computerarchitektur.

Danke, Ron. Ich denke, das ist eine gute Ergänzung zu diesem Thema.

Als Antwort auf (2),

"Das bestimmte Integral, von x = a bis x = b, der Eulerschen Zahl x-mal mit sich selbst multipliziert" ist kein Satz, sondern ein Prädikatsbegriff in Kombination mit einer Kopula. Dabei kann es sich um ein Wort als Aussagebegriff handeln, das ein Referent des vorgenannten Prädikatsbegriffs ist.

Es ist insofern ein Wort, als ein Prädikat ohne Kopula ein Wort sein kann. Es ist ein Prädikat, weil es sich auf die Eigenschaften bezieht, die sich in der Erweiterung dieser mathematischen Funktion befinden. Die Funktion mit etwas gleichzusetzen bedeutet, einen Satz zu erstellen, in dem "gleich" die Kopula des Prädikats ist. Zum Beispiel hat "Das bestimmte Integral, von x = a bis x = b, der Euler-Zahl x-mal mit sich selbst multipliziert gleich der Zahl Z" in der Logik erster Ordnung die folgende Form (wobei P das Prädikat ist Term "ist gleich der Zahl Z" und wobei Q der Prädikatterm ist "ist gleich dem bestimmten Integral, von x=a bis x=b, der Eulerschen Zahl multipliziert mit sich selbst x-mal":

∃y:Py∧Qy.

Ob der kategorische Satz wahr ist oder nicht, ist eine ganz andere Sache. Es ist möglich, dass ∃y:Py∧Qy falsch ist, sodass ∄y:Py∧Qy möglicherweise wahr ist.

Ich stimme zu, dass dieses Integral kein Satz ist. Meine Frage ist: "Können wir dieses Integral als ein Wort in der mathematischen Sprache betrachten?" Und aus Ihrer Antwort schließe ich, dass "es ein Wort als propositionaler Begriff sein kann ..."
Ich habe eine Bearbeitung vorgenommen. Bitte lassen Sie mich wissen, wenn ich klarer sein kann.
(+1) Danke für deine Klarstellung.

1) Kann eine geschriebene Sprache im Prinzip unendlich viele Wörter enthalten?

Die meisten Sprachen können Ausdrücke erzeugen, die eine unendliche Anzahl von Wörtern haben. Das ausschlaggebende Argument dafür war für mich dieser Beitrag von Allan C. Wechsler .

(2) if and only if there exist utterances of infinite length.
This inference is false. A simple counterexample: Although there are
only a finite number of digits (= language elements) and although no
decimal numeral (= utterance) is of infinite length, there are
undoutedly an infinite number of decimal numerals.

Unsere angeborene Grammatik lässt zu, dass solche Sätze existieren. Beachten Sie auch diese Liste der längsten Wörter in verschiedenen Sprachen , wobei viele der Sprachen eine willkürliche Zusammensetzung zulassen. Das längste Beispiel ist ein 431 Buchstaben langes Wort in Sanskrit, das irgendwann im Mittelalter geschrieben wurde. Oder betrachten Sie das englische Beispiel des wissenschaftlichen Namens Titin, der aus 189.819 Buchstaben besteht. Die Regeln der Physik und Chemie mögen uns daran hindern, unendlich große Moleküle zu erschaffen, aber die Regeln der IUPAC-Nomenklatur hindern uns nicht daran, Namen für unendlich lange Moleküle zu schaffen. Ob wir die Sanskrit- Sandhi-Regeln oder die IUPAC-Nomenklatur verwenden, die Grammatiken hindern uns nicht daran, unendlich lange Wörter zu bilden.

Kann eine Sprache im Prinzip einige Wörter enthalten, die nur durch eine nichtlineare Buchstabenstruktur dargestellt werden?

Die meisten indischen Schriften sind nicht so linear wie lateinische Schriften. Devanagari weist Verbindungen und Konjunktionen auf, bei denen einige Buchstaben andere Buchstaben von links, rechts, oben, unten oder innerhalb modifizieren. Aber warum ist das relevant? Indische Sprachen können auch in linearer Form geschrieben werden, üblicherweise mit IAST oder ITRANS . Dasselbe gilt für mathematische Ausdrücke. Ihr zweidimensionales Beispiel ist in LaTeX oder Mathematica oft linear geschrieben.

Wenn Sie Kanji und Logogramme im Allgemeinen, Hoeroglyphen und Ideogramme nicht wirklich ablehnen , habe ich keine Ahnung warum.

Sie könnten wohl argumentieren, dass Ideogramme Buchstaben sind, aber ich bin mir ziemlich sicher, dass diese Zeichen kein Alphabet sind .

Geschriebene Zeichen in anderen Schriftsystemen werden am besten als Syllabogramme (die eine Silbe bezeichnen) oder Logogramme (die ein Wort oder einen Satz bezeichnen) bezeichnet.


Gesprochene Wörter bestehen aus Lauteinheiten, die Phoneme genannt werden, und geschriebene Wörter aus Symbolen, die Grapheme genannt werden, wie die Buchstaben des englischen Alphabets.

Offensichtlich sind die Symbole Grapheme:

Es gibt zusätzliche grafische Komponenten, die beim Schreiben verwendet werden, wie Satzzeichen, mathematische Symbole, Wortteiler wie das Leerzeichen und andere typografische Symbole.


Zu deinen Fragen:

  1. Alle Sprachen sind Konstruktionen, und jedes unendlich lange Wort wäre unmöglich zu schreiben, und diese Sprache könnte nicht geschrieben werden. Es sei denn, man erlaubt ein Graphem, das zB besagt, dass die vorangehenden Buchstaben unendlich oft ausgesprochen werden mussten. Das wäre eine geplante Sprache

  2. Ich kann nur wirklich raten, was Sie mit "nichtlinearen Buchstabenstrukturen" meinen, aber zB im Chinesischen gibt es 214 Radikale im Kangxi-Wörterbuch, und

Radikale können an jeder Position in einem Zeichen vorkommen. Zum Beispiel erscheint das Radikal 女 auf der linken Seite in den Zeichen 姐, 媽, 她, 好 und 姓, aber es erscheint unten in 妾.

Mich würde eine Sprache neben der Mathematik interessieren, die ein Alphabet ähnlich verwendet.

Dies scheint eine sehr seltsame Frage in Bezug auf Sprachen zu sein, wie sie tatsächlich sind.

Grundsätzlich kann eine Sprache einige Wörter enthalten, die nur durch unendliche Buchstabenfolgen dargestellt werden können

Nein. Die Wissenschaft betrachtet schließlich Beweise; und die hier geeigneten Beweise sind natürliche Sprachen; es gibt keine Sprachen mit „unendlichen Buchstabenfolgen“; und dies lässt sich leicht aus einem Prinzip ableiten - wer hätte die Zeit, eine solche Sequenz aufzuschreiben?

Grammatiken werden durch endliche Zustandsautomaten dargestellt; es gibt die Chomskische Hierarchie formaler Grammatiken der Typen 0-3.

Die Art der Grammatik, die in eine solche Sprache passen würde, wie Sie vorschlagen, ist Typ-0; aber das liegt daran, dass es alles erlaubt, sie sind äquivalent zu einer Turing-Maschine, also eher wie ein Computer als eine echte, lebendige Grammatik; obwohl ich nicht sollte, dass sogar tatsächliche Computer endliche Ressourcen haben, so dass es so etwas wie eine tatsächliche Turing-Maschine mit einem unendlichen Band nicht gibt.

Vielen Dank für Ihre Antwort. In Ihrer Antwort haben Sie erklärt, dass "es keine Sprachen mit 'unendlichen Buchstabenfolgen' gibt" . Wie sieht es mit der Sprache der Mathematik aus? In dieser Sprache wird die mathematische Konstante e tatsächlich durch die unendliche Ziffernfolge dargestellt: 2,71828 ...., und jede Ziffer ist nichts anderes als ein Buchstabe im Zahlenalphabet. Ich stimme Ihnen zu, dass die Sprache der Mathematik keine formale Sprache in Chomskys Hierarchie ist und ihre Aussagen nicht von der Turing-Maschine verarbeitet werden können; aber es scheint eine gültige Sprache für mich zu sein.
@Noviff: Du hast es falsch verstanden. die unendliche Folge 2.71828... wird durch das Symbol e dargestellt, nicht umgekehrt. Viele Wörter in natürlicher Sprache "repräsentieren" Unendlichkeiten, ohne selbst unendlich zu sein. zB „Gott“, „Liebe“, „Unendlichkeit“.
@mobileink, guter Punkt. Ich denke jedoch, dass Symbole und Buchstaben zwei verschiedene Dinge sind. Der Zweck des numerischen Alphabets besteht darin, beliebige Zahlen (einschließlich transzendentaler) durch Ziffern darzustellen, und dieses Alphabet enthält keine Ziffer e . Aus diesem Grund ist ein Symbol e bedeutungslos, wenn es keine digitale Interpretation hat.
Re e , pi usw., sie sind berechenbare reelle Zahlen , wobei es relativ kurze Computerprogramme gibt, die sie Ziffer für Ziffer ausgeben (zugegeben, sie brauchen lange, bis sie fertig sind:). So kann e durch die Folge von Symbolen dargestellt werden, die ein solches entsprechendes Programm umfasst. Es gibt jedoch auch nicht berechenbare Realzahlen , die die überwiegende Mehrheit der Realzahlen umfassen (tatsächlich sind die berechenbaren Realzahlen das Maß Null). Und es würde eine "unendliche Folge von Symbolen" erfordern, um eines von ihnen vollständig darzustellen. Aber im Epsilon-Delta-Sinne kann eine endliche Folge sie mit beliebiger Genauigkeit bezeichnen
@noviff: wie der Mann sagt, du hast es rückwärts; Es ist der Buchstabe e , der die Zahl darstellt. Die numerische Darstellung, auf die Sie sich beziehen, ist immer ungefähr , da Sie die unendliche Ausdehnung niemals aufschreiben können ; wohingegen der Buchstabe e , der es darstellt, immer exakt ist.
Alle Grammatiken in der Chomsky-Hierarchie erlauben potenziell unendliche Sequenzen, es gibt eine Grammatik auf Ebene 0, deren Wörter sind: a, aa, aaa, aaaa, aaaaa, ... usw.
@Mozibur Ullah. Ich verstehe Ihren Standpunkt und stimme Ihnen zu, dass alle unendlichen Folgen durch endliche Buchstabenkombinationen dargestellt werden müssen. Gemäß Ihrer Anmerkung korrigiere ich Punkt 1 meiner ursprünglichen Frage.

Lineare Strukturen von Wörtern, Sätzen, Absätzen und sogar Büchern in natürlichen Sprachen könnten durch die Eigenschaft eines menschlichen Gehirns erklärt werden, Symbole sequentiell, eines nach dem anderen, zu verarbeiten. Interessant, aber Klänge und Bilder verarbeiten wir anders, und deshalb können wir alle Musikinstrumente im Orchester gleichzeitig hören und visuelle Objekte sofort sehen. Aus diesem Grund sind musikalische Akkorde nicht nur Tonfolgen und Bildelemente auf Zeichnungen nicht linear angeordnet.

Ein weiterer Fall sind Programmiersprachen. Diese Sprachen werden für Mensch-Computer-Interaktionen verwendet und sind so konzipiert, dass sie dieselben Informationen in zwei verschiedenen Formen darstellen: als Quellcodes für Menschen und als Maschinencodes für Computer. Während Quellcodes lineare Strukturen sind, sehen sie fast wie Texte in natürlichen Sprachen aus; Maschinencodes sind keine linearen Strukturen - Computer verarbeiten Maschinencodes nicht sequentiell in einer vordefinierten Reihenfolge.

Außerdem ist die Sprache der Mathematik wohl der schwierigste Fall. Zum Beispiel enthält die mathematische Formel, die das Gesetz der Schwerkraft darstellt, zweifellos einige Informationen; Ich bin mir jedoch nicht sicher, wer/was Urheber und Hauptkonsumenten dieser Informationen sind: Sind sie selbst physische Objekte, ein Gravitationsfeld um diese Objekte, oder ist es nur meine Vorstellung, die dieses Gesetz vorschlägt? Darüber hinaus ist nicht einmal klar, wie viele Informationen diese Formel enthält: Sind es wenige Datenbytes, die gerade ausreichen, um diese Formel zu schreiben, oder eine unendliche Menge an Informationen, die alle möglichen Gravitationsbahnen in unserem Universum definieren?