星期三, 5月 31, 2023

一些關於漢字的統計與數字(Numbers about Chinese Character)

如有收穫,會陸續更新。
2007年中國語言生活狀況報告裏,在10.07億漢字的語料上,進行漢字使用情況資料調查,結果為:595字數的覆蓋率達到80%,964字數的覆蓋率達到90%,2394字數的覆蓋率達到99%。

山西大學計算機科學系受國家語言文字工作委員會委託,抽樣統計200萬字的材料,檢測《現代漢語常用字表》收字的使用頻率。結果是:2,500常用字覆蓋率達97.97%,1,000次常用字覆蓋率達98.49%,合計共3,500字覆蓋率達99.48%。

關於甲骨文

《龜藏》〈河图洛书里的中国〉
根據古彝文學者、彝文學家的統計,殷商甲骨文文字當中包含有古彝文文字323個,源於古彝文的江永女書文字99個,東巴文純象形符號1210個,古彝文與東巴文組合性文字符號3496個。如此驚人的數字足以證明一個不爭的事實:誕生於中原文明的殷商甲骨文是一種多源流的複雜的文字系統,它是一種多民族多氏族的古文字、契刻符號的歷史混合體,它的形成是不同原始氏族間跨文化交流的結果。當然,在甲骨文的多源流當中,也同樣包含了賈湖契刻符號。p.115
-劉滴川. (2018). 龟藏 : 藏在龟壳里的甲骨文和贞吉中国 (第1版 ed.). 民主与建设出版社有限责任公司.

甲骨文也是一種動物分類表。
鳥、隹、烏

滿滿的老虎(金文有16字,6字有甲骨文),犬部的字有145個,牛部的字有61個字 (含犀(兕)、牠、牟)。
反過來的例子,馬部共145字,甲骨文僅有5字,金文有9字,後面成長150%。

古人認為犀牛的形狀像水牛,所以從「牛」為意符,本義是犀牛。犀牛在古代黃河、長江流域及南方數量很多,漢代就主要生長在南方,故許慎說犀牛是南方邊境外的牛。

漢字結構研究

漢字是由原始象形文字發展而來的表意文字,它的每一個個體都是一個完整的符號,有音有義,幾千年來完美地表達著古今漢語。人類進入科學時代后,人們發現,無論是客觀事物,還是反映客觀事物的人文符號,基本的法則都是組合,就是有由有限構造無限:7個音符,可以表現美妙絕倫的音樂世界;10個阿拉伯數字,可以表示無窮無盡的數字;100多種元素,可以構造浩瀚的宇宙。我們驚奇的發現,世界上的使用文字幾乎都在遵循這樣的法則。希臘字母有24個,拉丁字母有26個,阿拉伯字母有28個,斯拉夫字母有33個,諺文字母有40個,就是這些數量有限的字母,依靠組合,同樣完美地表達著各自紛繁復雜的自然語言。人類進入信息時代,組合的優越更加凸現。漢字顯然有些“異類”,常用字3500個,通用字7000個,能用字上萬個。

如此龐大的文字體系,不要說人來掌握和運用它,就是利用計算機來處理它,也是頗為困難的。漢字繁難是個事實,問題是有沒有辦法解決它。組合既然是個自然法則,那么漢字是否也隱含著這種法則呢?如果沒有,那么是否可以人為地設計出來呢?分析漢字的結構,探尋漢字的結構成分,找到漢字的“有限”結構符號系統,那么漢字也是“組合”的了。這就是本文研究漢字結構的初衷。-劉靖年《漢字結構研究》(A Study on the Structure of Chinese Characters)博士論文

漢字可分為獨體字合體兩大類。…甲骨文中以象形、指事、會意三種形式組成的純表意字占了70%。先秦漢語中基本詞在600~700之間,其中象形、指事字約三百個,這些獨體字是漢字本成份。…據《漢字信息字典》統計,7785個現行漢字中有323個獨體字,占總字數的4%,但使用頻率亦高達26%。…李燕和康加深先生《現代漢語形聲字聲符研究》一文統計了5631個現行漢字形聲字,其中在《現代漢語通用字表》中成字的有1119個,約占84%。…漢語的大多數詞畢竟是由表意的字體現的。 -〈信息化與古文字工具書編纂〉徐時儀,中國文字研究,p.164-177

ItemRevenueProfit
硬體30%
服務50%30%
軟體20%40%

沒有留言:

發佈留言

歡迎您的留言! ^^