还在背字根?放弃治疗吧!

本文相较上一篇,重点介绍常见的形码。主要针对刚入坑或想入坑但还不确定哪个形码方案更前(sàng)途(xīn)光(bìng)明(kuáng)的小伙伴。

盲打 60 字/分钟以上的老鸟可以低空掠过了……

如果现在问我,玩过的玩具里哪个最好玩?我会说,有俩,一个是小时候的乐高,另一个就是 RIME。本文就主要介绍几个前两年在折腾 RIME 的过程中我用过的形码方案。

RIME 的全称是 Rime Input Method Engine,即「Rime 输入法引擎」。首先明确一下啥是输入法,通常大家所说的多是输入软件(Software/Application),一款软件对应的是一种输入方案。比如鹅厂就出了拼音和五笔两个软件,分別用「汉语拼音方案」和「五笔字型(86 版)」作为默认编码方案。也有默认多种方案共存的,极点五笔就是比较早推出「五笔拼音」模式的,打「ggtt」出「五笔」的同时,也能在不切换输入方式的情况下按「pinyin」输出「拼音」;还有一家叫万能五笔的,虽不是万能的,却能在用上述两种方案打字的同时,启用英文模式,打「english」出「英语」两个汉字。当然像「RIME」这种神器,可以自己加入所有想用可用的方案,多种音形混合输入,还能利用反查当速查字典使用。
RIME 的反查功能之一。注意看,紧跟第一个候选项的「su rip huap」是潮汕地区的方言拼法。

不扯那么远,先说一下最常见的音码方案,在中国大陆,提到汉字录入就绕不过「拼音」二字,这是基于汉语拼音方案输入的,键位跟英文键盘没有区别,可以说基本做到了「无门坎、零添加」,只要会拼音规则就能打字,现在四十岁以下的人一般鸭梨不大。如果存在困难,也多是两点造成的,一是方言与官话差异较大,而自己普通话发音不准,二是键位不熟悉,击键的时候按错了。归于一句话就是,没有深刻领会「唯手熟尔」。海峡对岸还使用的一种叫「注音符号」的方案,跟「汉语拼音方案」本质上是一脉相承的,在拼写的时候声介韵母都能做到互相对应。而输入时最大的区别是键位布局不同,且输入零声母的字时不需要将「i」「u」写做「y」「w」。

每个按键右上对应的就是注音符号,左下是倉頡的字根。

基于发音的方案最大的缺点应该是重码造成的不便,因为汉语同音字太多了。比如「高校」和「高效」拼音编码完全一样,即使加入声调也不能有效加以区别(gāo xiào),输入时至少需要再按一个键才能区分两者。现在的输入法软件大都借助大词库,云计算等成果的帮助,输入化学名、历史年号等专有名词不那么费劲了,但是看到「分命羲仲,宅嵎夷,曰晹谷。寅賓出日,平秩東作。」这样的文章,恐怕不少人依然会比较头大。

为了达到降低重码、提高打字准确性的目的,有人设计了区分尖团音的方案(ziam_tuan);有使用「国语罗马字」(Gwoyeu Romatzyh)或「通字罗马字」(tungdzih lomaadzih)等相比汉语拼音来说拼写区分度更高(甚至带有入声)的方案;还有各种爱好者做的方言方案,比如粤语(jyutping)、吴语(soutzoewugniu)、中古汉语拼音(triungkox zyenpheng/sampheng)等,都是比较成熟的方案。而我只用过佛振做的中州罗马字(zhung),重码降低了不少,不过在普通话多年的冲击下,有些读音拿不准甚至不会说了。

另外再次安利一波宫保拼音方案,详情见宫保拼音推荐

但是不要忘了,汉字是表意为主的,不少歪果仁第一印象说咱是 draw(画)汉字的,能不能根据字形打字呢?

终于说到了本文的正题,形码

根据字形输入的方案,最常见的要数「五笔字型」了,80 后回想一下,有多少小伙伴是以学五笔打字为理由让家长给买小霸王学(yóu)习(xì)机(jī)的。

我最早见识这种打字方法时刚上小学,观摩高手把纸质书转换成电子版,相比当时流行的另一种铅字排版(再次暴露年龄),这真算是飞越了。当时看高手打字,多数时候我还没有听清楚键盘响了几声,字就在屏幕上一行一行蹦出来了。我那时候连字都没认识多少,跟我说拆分?还是玩乐高去吧……直到高二时无意中看到一本讲五笔规则的书,才算是入门了。这是方知道「五笔」是五种笔画的意思,压根也不是打五下出一个字。

五笔字型方案用「12345」表示「一丨丿丶乙」,对应「横竖撇捺折」五种笔画,字根分布也都是有规律的。如下图:

举个栗子,1(一)区第二个键,记为「12」,对应于英文键盘的「F」,其中「12」的意思,既表示在 1 区排第二位,在这个键上的字根拥有双倍(1×2)的「一」(二/干),也表示兼有 1 区和 2 区的笔画(1+2),即以「一」开头且第二笔是「丨」(土/十);同样,字母「W」对应「34」,那么先丿(3)后丶(4)的字根(人/八)就在「W」上了;「Y、U、I、O」都在 4 区,他们最大的区别就是各自的字根里包括几个点了,即「丶冫氵灬」。

我猜五笔在设计之初,考虑输入速度时优先级大于其他方面,忽略了一些字的细节和扩大到更大字库的问题。所以一些字比如「贏赢嬴羸」编码都是「ynky」,词语「老师」「教师」不仅意思相近,而且有着同样的编码,「深度」「浓度」和「尝试」都是「ipya」……况且「识别码」对于新手也是非一般地不友好。

不少人吭哧瘪肚背会了字根口诀,最后死在了识别码上。识别码用来区分字根编码相同而结构不同的字。比如「詧、信、隹」三个字,「詧、信」的字根编码都是「wy」,无法区分,只好求助于识别码。因为最后一笔是「一」,那么识别码就在 1 区。这两个字分别是左右结构和上下结构,识别码就对应 1 区的第一和第二个键,即「G、F」,所以「wy+g」得「信」,「wy+f」是「詧」。再说「信、隹」这两个,编码都是「wyg」,这又是怎么回事,识别码也一样?这还真不是。因为「信」是「亻+言+识别码」,「隹」是「亻+亠+圭(去掉一横)」,如此一来编码就又一样了,只好人工选择了,「酒」和「洒」也是这样的情况。那识别码的规律是啥呢?除了左右、上下、其他这三种结构对应最后一笔所在区域的第一、第二、第三个键以外,没有规律!你问我为啥不是上下在前左右在后的顺序,我也不知道,兴许是王永民先生抓阄的结果也说不定。

正因为识别码除了记忆与练习以外毫无捷径,不少人对此可以说是「深恶痛绝」,但识别码也不是一无是处,人家还是有优点的,比如「峯」「峰」、「群」「羣」和「员」「呗」这三组,多数形码因为这些字的字根相同而成为典型的重码组合,但是五笔却能根据字是左右还是上下结构加以区分。

想想在使用 1.44M 软盘+电话线拨号的年代,没有大数据支撑的算法,没有光纤也连不上云端,这样一种极低重码,可以盲打,词库小且毋须不断扩增的输入方案,还是非常有吸引力的,当年一些单位还有一个充满时代特征的工种——打字员。

刚入门还不清楚原理的阶段,不用死记硬背字根,估计背了也得忘。但是想把录入速度提高到 120+/分钟,多背背口诀没坏处。

那有没有不用识别码的方案呢?

答案是:

按照知名度来说排在五笔之后的可能是「倉頡」,常见的仓颉方案主要是三代和五代,基本的字根与分布位置差别不大,细节上有所不同。仓颉最大的特点我认为是关注字的细节,看字根表就会发现有很多连部首都算不上的笔画作为字根。比如「倉」就被拆分成了「人+丶+曰+口」,而在拆分的过程中,仓颉是不太关注笔画的完整性的,比如「九」就被分成了「横撇(右-口)+竖弯钩」,「車」被分成「十+田+十」,「又」被分成「乛+乂」……不喜欢仓颉的总说这是把汉字「腰斩」了,虽有贬低的成分,但却直观形象。
针式打印机

针式打印机最标志性的特征是工作时「刺啦刺啦」的声音。

仓颉的这种拆分规则还可以理解为扫描,可以大概类比于常见的如扫描仪、针式打印机、CT 机之类的工作方式,取码的顺序并不按照书写笔顺,而是按照上下左右外内的顺序依次进行,把字一刀刀切开,遇到谁就取哪个根,比如「內」是「人+冂」,「两」是「一+人+人+冂」,因为从上到下一刀刀横着切分的话,先是框上露头的部分,最后才会切到那个框框。

仓颉还有一个缺点,字的最长编码是四个或五个不等,而朱邦復先生公布的官方版本也不支持打词,一些网友发布的取词规则虽然重码不多,但是每个字在词语中的编码与单字的编码不一致,不如五笔那种在词语中也是从头取码的规则直观。以「倉頡」两字的仓颉五代与五笔 86 规则为例,单字「倉」分别被拆分为「人+丶+曰+口」和「人+丶+彐+口」,「頡」分别是「土+口+丆+目(下面没有封口的一横)+八」和「土+口+丆+貝」;词语则分别是「人+口+土+口+八」和「人+丶+土+口」。

不过仓颉以其开发时间早,又不涉及版权问题等优点,依旧成为电子设备默认搭载最广泛的中文输入法,而且支持的字库非常大,据说可以支持八万以上汉字的超大字库,天生不怕生僻字。

那有没有一种最长四码,默认支持打词,又没有识别码的方案呢?请看:

在非精简版的 Win 系统里,Win10 之前的版本都有另外一种默认形码输入法,郑码。郑码也叫「字根编码输入法」,类似王码五笔,郑码也是以五种不同笔画将字根区分到各自的「区位」,以各种字根搭配组字。比如「远」就是「土+口+衣(下半部)+辶」,依次键入「bjrw」即可。再比如「輸」,编码是「fkqk」,「fk」是「車」这个好理解,「qk」从何而来?这就不能不说郑码的规则。

郑码最大的特征是「双编码」,可以说也是「毁誉参半」。何谓双编码,郑码既然把字根分配到了各自的区位,那么每个字根就应当有区码和位码两个编码。郑码的区码类似五笔,根据横竖撇捺折的顺序从 a 到 z 排布到 26 字母上,而位码排布都是有联系的,比如「牛」(mb),区码是「m」,这个键上都是撇打头的,位码是「b」,因为两横开头的字根在「b」上;两横开头的「示」(bk),位码是「k」,因为「示」拆开就是「二(b)+小(k)」啊;「k」上有「小」(ko),位码「o」对应的就是一撇一捺开头的字根;所以「o」上有「食」(ox),而他的位码是艮(x)。以此类推……

前面不是有个「远」的栗子么,怎么没有打位码?那啥时候需要用到位码,啥时候不用咧?有人总结为「前二后二」原则,关于首根的位码:一,当首字根为双代码字根时,取该字根的双代码;二,当首字根为单代码字根时,取该字根代码,再取第二字根的区代码。说人话就是,背!所以对于双编码,就像鱼腥草,爱的人,恨不能天天搂着睡,恨的人,光想将其斩草除根、挫骨扬灰。

鱼腥草

有没有更友好一点的方案呢?

有,山人全息码。

山人虽然也有「小码」这一概念,但多是对应字根的拼音声母,相对更好记一点,而且山人第一码不需要既打区码又打位码,不追求完全盲打的话,不去记忆小码,打字的时候用数字进行选字也是可以的。对于区码规则,不像五笔是 123+末,仓颉 2+3,郑码前 2 后 2,山人是顺序区码,从头至尾不重不漏。那么可能有人会问,满四码还没有取完怎么办?——山人是大字根,四个都取不完的情况太少了。

如何理解大字根?比如动物类的「K」上,「龙、虎、象」这样在别的形码中通常都被拆分的字也是一个字根,所以不需要记住字的细节,而且这么大的部件作为一个字根,总体需要的编码数当然会少了。

那何谓「全息」?如果说仓颉是平面的,山人就是立体的,不管字在二维的书帛上笔画如何,在按键上的分布都根据其意义来。比如「U」上的字根都跟吃有关,不论是「禾、竹、米、麦、瓜、豆」各种粮食,还是「匕、鼎、缶、臼、鬲」这些跟吃沾边的容器,都能在这儿找到;「E」上所有的字根都跟生老病死有关,比如各种(不仅限于人的)身体结构「目、耳、鼻、舌、身、面、毛、皮、血、肉、骨、牙、齿、角」等。显而易见,「辞」的基本构成就是「舌」+跟味道有关的「辛」,即「E」+「U」。

如果也要像其他的方案一样找出点不完美之处的话,山人在实际使用过程中左手的击键负担明显多余右手,布局可以再优化一下;另外部分小码用的是拼音的声母或介音,虽是跟拆分无关,还是会给人以音形码的印象,而且相互之间不如郑码位码间的联系紧密。还有一个不算缺点的副作用就是字根太大,容易忘记细节,当然也可以说是字根优化得好。

通用性的问题早就跟方案本身的优劣没有多大关系了,现在早已不是万「码」奔腾的年代了……况且,有了 RIME 这等神器还不是想用啥码用啥码,还要啥自行车?!

比较常见的还有「张码」「徐码」「希码」等,我没实际作为主力方案用过,就不多说了。

那么,敲黑板:总结上面这么多,想入形码大坑的话:平时打字简体为主,选五笔或郑码,通用性最强的是五笔,受不了识别码用郑码;平时用繁体或生僻字较多,也许仓颉会有意外的惊喜;不拒绝尝鲜和折腾,致力于更「科学」的方案的话,山人值得一试。如果想突破 60 字/分钟的瓶颈,还不赶紧关了这个页面,快去练习啊!

如果已经学过一种形码,轻易不要入第二个坑。血的教训告诉我们:在成为燕南天之前,就别考虑「嫁衣神功」了……

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,817评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,329评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,354评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,498评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,600评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,829评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,979评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,722评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,189评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,519评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,654评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,940评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,762评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,993评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,382评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,543评论 2 349

推荐阅读更多精彩内容

  • 我并不是输入法的研究者,而只是一个使用者。因为平时经常打字写文章,所以曾经学用过几种不同的输入法。使用时间长了,很...
    哥舒阅读 1,390评论 0 3
  • 文 | 一鸣 熟悉我的连载作者都知道我是一个错别字大王。当然这并不是我有意而为,本来我以为自己的大脑已经够迟钝了,...
    一鸣阅读 4,966评论 100 142
  • 2018年1月23日 星期二 晴 从简书写作之后,我关注的作者大概和粉丝数持平,虽然有一段时间有一些...
    残阳物语阅读 699评论 34 37
  • #杨幂与好友同穿情侣装# #杨幂谈人设奔塌# #杨幂王源马丽 谦让# 单从昨晚算起,杨幂已携三个话题冲占微博热搜榜...
    零零乱乱阅读 739评论 0 2