正在加载图片...
4.标准电码本(7292字)1983年中华人民共和国邮电部 5.1986年度新闻信息流通频度(6001字)—1987年1月新华社技术研究所 〔时间范围〕 常用字表选材的时间范围是从1928年至1986年。在此时间区域内采用不等密度抽样,即抽样量按 时间顺序递增,以近期的资料为主要抽样对象。社会用字与政治、经济、文化的发展有着密切的关系,不 同时期的用字情况有所不同。如果仅依某一短时期的用字情况选取常用字,则有时间的局限性。适当把 统计的时间拉长,纵观各个不同时期的用字情况,则可以衡量字的使用是否稳定。选取使用稳定的字,可 以避免选字的偶然性。 〔分布和使用度 拟订常用字表时,还统计了汉字在不同学科的分布和使用度。统计汉字在不同学科的分布,可以衡 量某个字的使用分布是否均匀。如某个字在单一学科中使用频度较高但在其他学科中却很少出现,这 说明它的分布是不均匀的。与此相反,有的字不仅使用频率较高,而且能在多学科中出现,这说明它的分 布是均匀的。选取分布均匀的字,可以避免选字的片面性。我们以1985年3月北京航空学院计算机科 学与工程系和中国文字改革委员会汉字处合作统计的《现代汉语用字频度表》作为统计汉字使用分布 资料该资料有十科用字频度表1文体生活用字频度表;2历史哲学用字频度表;3政治经济用字 表;4.新闻报道用字频度表;5文学艺术用字频度表;6.建筑运输用字频度表;7.农林牧渔用字频度表; 8轻工业用字频度表;9.重工业用字频度表;10.基础知识用字频度表。 使用度是将汉字的使用频率与该字在各个学科中的分布进行综合考虑的一种计算方法。计算汉字 使用度的公式是 s=∑(N4-M)3/ D4=1-S/M×(n-1) Uk=D2×Fk 上述公式的计算条件是假定各个分科的抽样量是均匀的。其中,Nx是k号字在第i类语料中的相 对频率,Mk是k号字在综合类里的相对频率,n是语料的分类数,D4是k号字的散布系数,Sk是k号字 的标准分布偏差是k号字的使用度,F4是k号字的出现字次。我们在统计汉字的使用度时对上述 公式进行了调整,调整后的公式是: S4-/∑(M-M)m D=1-S/M×(n-1) Dk=(L4+8)/18 Dk+DI Fk≥0.0001 DEX Fk<0.0001 U=DE×Fk 其中,D1和DE4都是我们采用的k号字的散布系数,是k号字的分布系数。 〔选字原则〕 拟订常用字表的选字原则是 1.根据汉字的使用频率,选取使用频率高的字; 2.在使用频率相同的情况下,选取学科分布广、使用度高的字 3.根据汉字的构字能力和构词能力,选取构字能力和构词能力强的字; 4.根据汉字的实际使用(语义功能)情况斟酌取舍。有些字,在书面语中很少使用,进行用字统计时 往往统计不到,但在社会日常生活中却很常用,像这类字,也应适当选取
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有