Was muss aus einer generischen Chumash entfernt werden, um nur die Buchstaben zu erhalten, die in der Torarolle zu finden sind?

Ich schreibe ein Programm, um verschiedene Berechnungen mit der Tora durchzuführen. Dazu muss ich alle Satzzeichen, Leerzeichen und andere Notationen entfernen.

Ich habe die Umbrüche (פ) und alle nicht-hebräischen Buchstaben (einschließlich Nikodot) aus der Sefaria Chumash entfernt , indem ich den regulären Ausdruck verwendet habe: "\\(.\\)|\\[.*?\\]|[^\u05D0-\u05EA]"(dh jeder einzelne Buchstabe in Klammern, jeder nicht-hebräische Buchstabe, alle hebräischen Buchstaben mit Interpunktion oder jedes Muster in Klammern - um Kiris zu berücksichtigen). Allerdings scheine ich noch 45 zusätzliche Buchstaben zu haben.

Siehe http://www.filedropper.com/biblestats_2 für die Ausgabe des Programms. Jede Zeile hat eine Vorher- und Nachher-Version des Textes. Am Ende jedes Buches drucke ich die bisherigen Statistiken aus. Am Ende der gesamten Datei drucke ich die Statistiken der gesamten Tora aus.

Ich bekomme:

Total: Verses: 5846, Letters: 304850
Total Frequencies:
א: 27060
ב: 16345
ג: 2109
ד: 7032
ה: 28055
ו: 30533
ז: 2198
ח: 7189
ט: 1804
י: 31556
ך: 3358
כ: 8610
ל: 21570
ם: 10624
מ: 14466
ן: 4259
נ: 9867
ס: 1833
ע: 11250
ף: 830
פ: 3975
ץ: 1035
צ: 2927
ק: 4695
ר: 18125
ש: 15595
ת: 17950

Laut http://www.aishdas.org/toratemet/en_pamphlet9.html und anderen Quellen sollten es jedoch nur 304.805 Buchstaben sein. Woher kommen die zusätzlichen 45 Buchstaben?

Haben Sie versehentlich die gepunkteten Buchstaben (zB לנו ולבנינו) ausgeschlossen? Haben Sie versehentlich die auf dem Kopf stehenden Nonnen aufgenommen?
Wo ist der Vers? Glücklicherweise gehört die umgekehrte Nonne nicht zum Unicode-Zeichenbereich \u05D0-\u05EA.
Gepunktete Buchstaben sind in zB. Dev 29 28 und Nonnen am Ende von Bamidbar 10
Vorher: Deuteronomie (29, 28): הַ֨נִּסְתָּרֹ֔ת לַיהוָ֖ה אֱלֹהֵ֑ינוּ וְהַנִּגְלֹ֞ת לָ֤ׄנׄוּׄ וּׄלְׄבָׄנֵׄ֙יׄנׄוּׄ֙ עַד־עוֹלָ֔ם לַעֲשׂ֕וֹת אֶת־כָּל־דִּבְרֵ֖י הַתּוֹרָ֥ה הַזֹּֽאת׃ograph האלהאלהאלהאלהאלהאלהאלהאלהאלהאלהאלהאלarte ַזֹּֽאת׃ane.
Kri UKsivs wird dich holen.
Es gibt einen Kri UKhsiv in Devarim 28:30
@DoubleAA, Shalom: Näher kommen [.*?] stimmt mit allen Kisivs in den Sefaria-Texten überein.
Haben sie ein Zeichen, das parshat hashavua bricht? Oder sefer Pausen?
Scheint nicht so zu sein: sefaria.org/… , sefaria.org/…
Haben Sie Ihre Brieffrequenzen mit denen in einer Konkordanz verglichen?
@NBZ, meine Version hat ein paar Extras von jedem.
Nur eine wilde Sache, bitte sei nicht beleidigt: Gibt es Parscha- oder Sefer-Namen?
@NBZ, du hast nichts Beleidigendes gesagt; DoubleAA hatte das bereits ein paar Kommentare weiter oben angesprochen.
Nein, er erwähnte spezielle Buchstaben, die die Pausen markieren, ich meinte die tatsächlichen Namen.
... klingt nach Unterschieden zwischen "vollständiger" und "fehlerhafter" Schreibweise von Wörtern zwischen den Ausgaben des Textes. Ich frage mich, welche Ausgabe Drosnin verwendet hat ...

Antworten (1)

Ich denke, es gibt 304805 Buchstaben in einer Sefer Tora, aber 304850 oder 304848 Buchstaben im Text, wie man ihn in einem berühmten Manuskript findet, dem „Leningrader Kodex“, den viele Akademiker verwenden. Sefaria basiert auf dem Leningrader Kodex von tanach.us. Ich habe keine Liste der Unterschiede gesehen, aber ein Beispiel ist האלילם/האלילים in 3. Mose 19:4.

Dies ist durchaus plausibel (das Beispiel, das Sie bringen, ist zutreffend). Sind Sie sicher, dass die Summe 304850 ist?
Nein, ich bin mir bei nichts sicher. Mehrere Websites sagen 304848 und einige sagen 304850.
Ich denke, ich sollte nach anderen Quellen suchen. Können Sie eine genauere vorschlagen?
Vielleicht mechon-mamre.org ?
@AniYodea Sefaria ist wahrscheinlich eine sehr genaue Darstellung des Leningrader Kodex. Gibt es einen bestimmten anderen Text der Thora, nach dem Sie suchen?
@doubleaa Ich habe diese Tatsache erkannt, nachdem ich die Wikipedia-Seite gelesen hatte. Welcher Kodex eignet sich am besten für Bibelcodes und warum hat mein Link oben nicht Leningrad verwendet, um die Gesamtzahl zu berechnen?
@AniYodea "am besten für Bibelcodes" Hängt davon ab, wonach Sie suchen :) Ihr Link hat wahrscheinlich einen anderen Text (wahrscheinlich Minchat Shai) verwendet, um seine Zählung zu machen.
@JeremyR, kannst du deine Quellen angeben? Ich kann es bei Google nicht finden: google.com/…
@DoubleAA, zum Berechnen und Verifizieren bekannter ELS-Codes
@AniYodea Sie sollten den Text verwenden, der vom "Entdecker" dieses ELS-"Codes" verwendet wurde. Andere Texte funktionieren nicht unbedingt. Das ist der Hauptgrund, warum ELS-Codes dumm sind. Sofern Sie dies nicht als Programmierübung tun, würde ich Sie ermutigen, etwas Nützliches zu finden, was Sie mit Ihrer Zeit tun können.
@DoubleAA, ich würde gerne mehr von Ihren Gedanken zu ELS-Codes hören. Warum denkst du, dass es dumm ist. Verwenden einige Mefarshim es nicht mit Sprüngen von 7, wie beim Schabbat-Kiddusch, Parschat Bereishet und dergleichen?
@AniYodea Es ist dumm, weil der Talmud uns bereits sagt, dass wir nicht wissen, wie viele Buchstaben es in der Tora gibt, weil wir nicht alle Matres Lectionis kennen. (Sogar ein zusätzlicher Buchstabe kann alles ruinieren!) Wenn Sie eine Mesorah von vor dieser Zeit über einen relevanten ELS-Code haben, in Ordnung. Ansonsten geh etwas Produktives tun.
Könnten Sie die problematischen Bereiche nicht einfach überspringen oder einen kleinen Fehlerspielraum zulassen? Es ist nicht so, dass jede einzelne Parscha diese Diskrepanzen aufweist...
@AniYodea Hast du eine Ahnung, wo sie sind? Ich tu nicht. Vielleicht hat jede Spalte eine. Oder zwei. Oder drei. Wie können Sie einen kleinen Spielraum oder Fehler zulassen? Sogar ein Brief davon ruiniert das ganze ELS.
@DoubleAA, könnten Sie nicht dasselbe Argument gegen die Verwendung von Gematrien verwenden?
@DoubleAA, wo steht im Talmud, dass wir nicht wissen, wie viele Buchstaben es gibt?
@AniYodea Kiddushin 30a.