漫谈针对ePub中生僻字的处理

简述

我们通常做电子书的时候,常见的现代文字书,使用通用宋体、黑体的正常字库大小(大约近三万汉字+拉丁系字母)差不多都可以满足要求了。但是对于古籍而言还是不够。像现在网上很多文字校对工具据说都是为了将佛经电子化而开发出来的——信佛的程序员了不得啊。
且不说佛经里头有很多的梵文音译过来的生僻字,电子化起来肯定很麻烦,就最常见的一本三国演义,里面的生僻字就不见得能处理好。
三国里面的生僻字其实大部分包括在我们通用的字库里面了(只是个别是以繁体显示而已),但有个别的生僻字在人名中,很难处理。比如孙休的长子孙wan。大家可以翻到最后一回,一开头就有这个人名出现。
怎么处理?一般有以下几种办法:

替换

这是最省事的一种,直接替换为异体字,比如“噚”这个字是用于古欧洲长度单位的,原始文字的右边应该是简体的“寻”字,但是字库里没这个字,只有繁体的“寻”做偏旁,意思是一样的,那就可以直接用这个字。
还有一个例子,比如古文里面有“左木右匮“这样的字,网上根本找不到这个字。但是根据上下文的意思,这个字是柜子的意思,而且“木匮”这个字在古文中也通“柜”字,对于专业性不是很强的书来说,也可以直接用柜字。
还有一种情况是类推简化字。由于字库分配的问题,有些带繁体偏旁的字(比如“鴅”)放在常用GBK字库里面,但是其类推简化字(“𫛝”,左丹右鸟,就是将右侧的鳥简化了)是放在扩展B区的,一般字库显示不了这个字(个人认为类推简化字意义不大,因为本来这种繁体字就不常用,使用繁体并没有什么麻烦的地方,古籍中也不会使用这种类推简化字,弄出来反而平白浪费了字库容量)。
优点:不影响正文外观和结构,便于书中查询。
缺点:

  1. 只限于对专业性不是很强,不要求字字相同的书;
  2. 只限于该文字在字库中存在强相关异体字形的情况;
  3. 只限于非人名的情况,除非这个人名是历史上不咋出名的,或者是小说里的路人甲。

偏旁组合

这是最偷懒的一种,就像替换法介绍的,用【左X右Y】或【上X下Y】这种形式括起来,在掌阅的公版书里用得比较多。它比替换法更方便一些。
优点:排版比较快,不需要去查询异体字。

  1. 只限于上下或左右结构的字,而且偏旁也要在字库中;
  2. 影响正文外观,无法书中查询;
  3. 碰到翻页的情况,可能四个字被分到前后两页,可读性差。

图片

这是比较大众化的一种办法,因为不管啥字,只要用图片一描都可以实现。在Kindle中,因为Kindle的字库很小,对于一些专业性较强的书籍,几乎大片大片的使用图片内嵌到文本中。
优点:处理过程简单,适用环境广泛。
缺点:

  1. 对墨水屏的适用性较强,因为墨水屏不容易看出来,但是对于高清屏幕来说,正文就像打上了一块块的补丁;
  2. 图片不能像字体那样无损缩放,会有明显的毛刺出现;
  3. 对于有白天夜间模式切换的电子书软件来说,夜间模式图片就看不见了,不会像文字那样自动反色。

注释

这是我通常用的一种办法,它综合了上述两种的优点。方法是正文中使用同音或同义的字,加上一段注释,注释中加以说明并辅以字形图片说明。
优点:不影响正文外观和结构,同时保留了原文字形。在多看中行内注释不受日夜切换的影响。
缺点:

  1. 需要考虑替代字体的选择;
  2. 对于正文中有大量生僻字的情况,工作量会很大,而且注释图标多了也影响外观和交互。

外挂字库

这算是解决上述问题的终极解决办法,但是要求的成本也是很高的,而且对于阅读软件也有要求。必须是支持epub内置字体的软件,而且还需要自己去修改一个字库,修改的字还不能太丑,否则影响正文外观。网上有花园明朝这种超大字符集,但是字体实在比较丑。需要找一个比较好看一点的字体才行。
优点:不影响正文外观和结构,同时保留了原文字形。而且没有多余的注释图标影响正文。
缺点:

  1. 成本高,对阅读软件和用户的动手能力都有要求;
  2. 内置字体会显著增加epub的文件大小;
  3. 最好不要在现有字体上修改现有字符,因为别的字体这个位置还是原来的字符,对于可以替换字体的软件来说,一换字体或者进行书内查询就露馅了。

总结

上述5种办法,还是建议从简单到复杂综合运用,不过个人不推荐使用第二和第三种方法,因为会影响美观。当然如果是墨水屏电子书用户,图片替代还是可以考虑的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容

  • 首先,文字是我们传承文明的唯一工具。世界上所有的国家里,只有我们中国的文化是始终没有间断过的传承下来,汉字是伟大的...
    曰月德阅读 2,717评论 0 11
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 172,008评论 25 707
  • 长大的感觉。尚未配妥剑,转身便江湖!越来越好多的话,不说,而是笑笑。再也没有理由放肆自己的情绪,总要考虑周围考虑别人
    白马不白黑马黑阅读 95评论 0 0
  • 词以境界①为最上②。有境界则自成高格③,自有名句。五代北宋之词所以独绝者在此。 有造境①,有写境②,此理想与写实二...
    effort_nana阅读 622评论 0 0