Ich schreibe ein Programm, um verschiedene Berechnungen mit der Tora durchzuführen. Dazu muss ich alle Satzzeichen, Leerzeichen und andere Notationen entfernen.
Ich habe die Umbrüche (פ) und alle nicht-hebräischen Buchstaben (einschließlich Nikodot) aus der Sefaria Chumash entfernt , indem ich den regulären Ausdruck verwendet habe: "\\(.\\)|\\[.*?\\]|[^\u05D0-\u05EA]"
(dh jeder einzelne Buchstabe in Klammern, jeder nicht-hebräische Buchstabe, alle hebräischen Buchstaben mit Interpunktion oder jedes Muster in Klammern - um Kiris zu berücksichtigen). Allerdings scheine ich noch 45 zusätzliche Buchstaben zu haben.
Siehe http://www.filedropper.com/biblestats_2 für die Ausgabe des Programms. Jede Zeile hat eine Vorher- und Nachher-Version des Textes. Am Ende jedes Buches drucke ich die bisherigen Statistiken aus. Am Ende der gesamten Datei drucke ich die Statistiken der gesamten Tora aus.
Ich bekomme:
Total: Verses: 5846, Letters: 304850
Total Frequencies:
א: 27060
ב: 16345
ג: 2109
ד: 7032
ה: 28055
ו: 30533
ז: 2198
ח: 7189
ט: 1804
י: 31556
ך: 3358
כ: 8610
ל: 21570
ם: 10624
מ: 14466
ן: 4259
נ: 9867
ס: 1833
ע: 11250
ף: 830
פ: 3975
ץ: 1035
צ: 2927
ק: 4695
ר: 18125
ש: 15595
ת: 17950
Laut http://www.aishdas.org/toratemet/en_pamphlet9.html und anderen Quellen sollten es jedoch nur 304.805 Buchstaben sein. Woher kommen die zusätzlichen 45 Buchstaben?
Ich denke, es gibt 304805 Buchstaben in einer Sefer Tora, aber 304850 oder 304848 Buchstaben im Text, wie man ihn in einem berühmten Manuskript findet, dem „Leningrader Kodex“, den viele Akademiker verwenden. Sefaria basiert auf dem Leningrader Kodex von tanach.us. Ich habe keine Liste der Unterschiede gesehen, aber ein Beispiel ist האלילם/האלילים in 3. Mose 19:4.
Doppelte AA
Ani Yodea
Doppelte AA
Ani Yodea
Schalom
Doppelte AA
Ani Yodea
Doppelte AA
Ani Yodea
Adam
Ani Yodea
Adam
Ani Yodea
Adam
Gary