第五篇
中国汉字传奇
36. 汉字与电脑大碰撞
1981年8月12日,美国IBM公司在纽约市对外宣布:IBM PC个人电脑横空出世。著名的《时代》周刊在介绍本年度“新闻人物”时满怀激情地写到:“在一年的新闻里,这个最吸引人的话题,它代表着一种进程,一种持续发展并被广泛接受和欢迎的进程。这就是为什么《时代》在风云激荡的当今世界中选择了这么一位新闻人物,但这完全不是一个人物,而是一台机器”。它昭示着人类社会从此跨进了个人电脑的新时代。

对于字母文字(例如英语)世界而言,个人电脑的作用首推“换笔”——字母还是那26个,键盘还是那个QWERTY,用英文打字机打字改换成电脑打字不费吹灰之力。至少在西方发达国家,当绝大多数家庭或个人都拥有PC机之后,在“个人电脑”与“个人打字机”或者“个人的钢笔”之间不再存在天堑般的差距,第三次书写革命大“换笔”已经初现端倪。然而,对于中国汉字世界而言,要想用个人电脑“换笔”,与中文打字机的命运一样,又必须突破那个横亘在成千上万计的汉字与QWERTY键盘之间的巨大障碍,从而引发了汉字与电脑历史性的“大碰撞”。能否突破汉字进入个人电脑的桎梏,关系到汉字在信息时代的生死存亡,以至于语言文字学家周有光先生激奋地呼吁:“我们已经丢掉了一个机械打字机的时代,我们绝不能再丢掉一个电子打字机的时代。”

巨大障碍的一端是海量的汉字。古代《说文解字》收录的汉字只有9000多个,而如今最全的《中华大辞典》收录了10万多个汉字。为了压缩汉字的巨大体量,文字工作者们进行了大量的“汉字查频统计”,即从各种汉字文献里,查找每个汉字的使用次数。1977年,中国最大的一次汉字查频统计,在国家统计局的指挥下整整进行了两年,一共统计了86本书籍、104本期刊和7075篇文章,总字数达到2000多万字,内容涉及工业、农业、军事、政治、科技、文学、医药、教育等等方面,包罗万象。查频结果表明,最常用的汉字共有6347个。1980年,中国颁布了第一个汉字信息处理方面的国家标准,明确规定基本的汉字为6763个。到2022年,教育部正式发布的《通用规范汉字表》共收字三级8105个字。其中,一级字表为常用字集,收字3500个,可以作为义务教育阶段的识字标准。二级字表收字3000个,常用度仅次于一级字。一、二级字表合计6500字,主要满足出版印刷、信息处理和社会生活一般用字需要。就这样,进入电脑的汉字被压缩到了6500个字。

汉字的字频指每个汉字使用的频繁程度,即它可能出现的频率。字频的统计表明,对于普通中国人而言,认识600个常用字就可以覆盖80%的语言资料;认识960字可以覆盖90%的语料;哪怕你只认得3000字,就能够当作家,依据就是3000字的字频信息覆盖了99%的中文语料。这里还有一个有趣的现象。5万汉字中有为数不到100个字,它们的使用频率占总频率三分之一强,人们似乎特别喜爱这些字。

巨大障碍的另一端是那个QWERTY键盘,即如何用仅有几十个键位的键盘来输入6500个汉字。目前可行的方法就是编码输入。1990年颁布的中国国家标准里专门列出一个词条,用严格的科学术语将“编码”定义为:“按一定的规则对指定的汉字集内的元素编制相应的代码”。这里所说的“指定的汉字集”,目前指的就是那6500个汉字;所谓“一定的规则”,即按照某种简洁、方便且容易记忆的方法,以数字或字母作为汉字的代码,把汉字“压缩”到QWERTY键盘来输入。

1976年底,海峡对岸的朱邦复首次发表中文形意编码,以中国造字祖先的名字命名为“仓颉输入法”。
出生于1937年湖北的朱邦复,遭遇过时代变迁的动乱。他从台湾农学院农艺系毕业后便去服了兵役,退役后却只身前往了巴西垦荒。接下来的时光,他当过领班、餐厅服务员和摄影师,直到在巴西一家出版公司的工作经历,才彻底改变了自己的人生轨迹。

1972年的某天,朱邦复看到编辑部正在处理一份葡萄牙文的小说,20万字的文稿两小时之内便输入了电脑印刷成书。这件事激励了他萌生了如何把中文也输入电脑的大胆想法。朱邦复将自己埋首在各类字典中,把字典里的字一个个剪下来,剪了几十本字典,把所有的汉字编卡,然而把卡片排列组合了几千次,最后订出了一套编码表,记忆口诀为“日月金木水火土,人心手足口耳目,王石山虫鱼犬马,衣言丝草竹”,这便是仓颉输入法的雏形,命名为“中文形意检字法”。直到八十年代初期,在台湾某高校计算机中心的支持下,朱邦复成功完成了12000字的中文文件的输入。又过了几年,他终于以仓颉输入法为基础发明了中文字形产生器,造出了中文终端电脑。

1978年,中国上海的支秉彝在《自然杂志》上正式介绍了他的“见字识码”系统。
支秉彝是江苏泰州人。1934年,先后就学于浙江大学、德国莱比锡大学,获自然科学博士,曾在德国蓝点无线电厂任工程师。1945年支秉彝购置了一批精密标准仪器欣然回国,担任中央工业试验所电子试验室主任。上海解放后,他创办了黄河理エ仪器厂。1964年,他调上海电工仪器研究所任总エ程师。
支秉彝汉字编码的发明是在那个特殊年代。当他被诬为“反动学术权威”被关押的某天,他看到隔离室墙上“坦白从宽,抗拒从严”八个大字,骤然间萌发了一个研究想法:能不能把汉字编成一种有规律的代码,用以替代打电报的老办法,进而让汉字同西文一样直接进入计算机。支秉彝凭早年在德国任教汉语的根基,潜心思考,以26个拉丁字母逐个试着编码汉字。在灯光昏暗的隔离室,支秉彝利用茶杯盖子编码写字,几十个汉字编满后抹了再编。他没有字典,没有参考资料,也没有任何人可以探讨和交流,凭借的只是顽强的意志和超人的记忆力……。

1969年9月,支秉彝从隔离室放出来监督劳动,他仍坚持着汉字编码研究。他打破单一分解汉字字形的方式,综合分析汉字字音、字形、笔划和拼音之间的关系,以4个字母表示一个汉字,规则简单,易于掌握。如“路”字,可拆成口、止、文、口四部分,取部首拼音读音的第一个字母,即组成“路”的代码KZWK 。以一本《新华字典》作伴侣,支秉彝把字典上的8500字如此都编上了码,毎个字填写一张卡片,从中探索和解决重复码的规律。就这样,支秉彝终于发明了“见字识码”的编码系统,也被称为“支码”系统。整整六年过去,当黎明又重新来临的时候,当知识又重新找回它的价值的时候,我们的仪器仪表专家额头上已爬满了皱纹,甚至只能够坐着轮椅来发表自己的论文。他终于看到自己含辛茹苦研究出的“神秘符号”取得了两项中国第一:中国报纸第一次报道的汉字编码,中国大陆第一个汉字信息处理系统。1977年,上海市电话局“114”服务台按照“支码”,成功地把用户单位名称的汉字储存在计算机内,话务员根据用户要求,按下字键,通过电脑自动地回答所查到的电话号码。

朱邦复和支秉彝的研究开创了汉字编码研究的先河。他们分别创造的编码方法还不够简便,不太实用。但是,他们的发明却引来了中国汉字编码的逐鹿中原,形成了历史上罕见的汉字编码竞争热潮。