如何制作MDict词库

作者:亚马逊的蝴蝶(Butterfly_of_Amazon)


我手机上运行着深蓝词典,使用了一个从网上下载下来的159M的MDict词库——金山词霸2007年合集。由于这个词库显示丑陋,多余无用的词条太多,所以萌生了修改它的想法。

周末花了一天多时间,对这个159M的词库进行了编辑。过程很艰辛,不停地摸索着做,对Grep、UltraEdit、NotePad++、MdxBuilder、GetDict.exe都有了一些了解,基本上达到了目的。把这过程记录下来备忘。

第一步,将MDX格式的词库导成方便编辑的TXT文本

几经查找和尝试,终于找到GetDict.exe,从这个词库里导出了890M大小、每个单词一行的Html+C格式TXT文本,这种格式不是可以用来直接生成MDX的源文本,但可以方便地把不同来源的单词分开,这是进行下一步编辑工作的基础。


GetDict

图中三个选项里,“UTF-8格式TXT”和“MDX源文件”都可以导出文本文件,区别是前者导出的是每个单词一行的格式,后者是每个单词若干行的格式。见下面示例:

UTF-8格式TXT:
lens <font size=5 color=#0069b9>lens</font><br><br><font size=3>透镜</font><br><br>\n

MDX源文件:
lens
<font size=5 color=#0069b9>lens</font><br><br><font size=3>透镜</font><br><br>
</>

对我来说,每单词一行的格式方便我进行后续的处理。

第二步,从TXT文本中拆出想要的子词库

这个文本文件太大,普通的文本处理软件无法打开,UltrEdit虽然可以,但处理速度太慢。几经尝试,终于找到了Linux下的Grep,不但可以打开,而且处理速度超快。

具体Linux上哪儿找,就看各位手头的条件了,推荐使用Ubuntu操作系统。Ubuntu操作系统是比较优秀的Linux内核的个人电脑操作系统,安装与使用都比较方便,界面非常漂亮,用习惯了你会喜欢上它。


Ubuntu

合集中的子词库太多,都需要靠手工来选择,所以花了好几个小时才把每个词库分开,我把它们分别保存为一个个TXT文本文件。从中选出15个对我有用的,进行下一步的处理。

由于没有人指导,全靠自己摸索,前面这些工作花了一整天加半个晚上的时间。

第三步,对15个词库的TXT文本进行加工

由于这15个TXT文本不是可以直接用于生成MDX词库的源文本格式,因此首先要将它们转换为MDX需要的格式。

1. 先使用MdxBuilder将其转换为MDX文件

“Source”为前面得到的Txt文件,“Tartget”为mdx字典文件,“Original format”选择“KDic text(No phonetic)”,“Encoding”选择“UTF-8(Unicode)”,勾选上“Allow export to text”,点击“Start”,进行转换。


2. 再用MdxExport.exe将生成的MDX文件转换为TXT文件,即得到了MDX所要求的“每单词三行”的文本格式。
需要进到Windows的CMD命令符窗口进行操作

文本里有很多 &lt; &gt; &quot; &amp; ,需要替换为 < > " &后才能用。

a battery
a battery&lt;font size=5 color=#0069b9&gt;a battery&lt;/font&gt;&lt;br&gt;&lt;br&gt;&lt;font size=3&gt;a电池组&lt;/font&gt;&lt;br&gt;&lt;br&gt;<br>
</>

这个环节又花了半个晚上加一上午。这个过程让我对正则表达式有了一些了解,对NotePad++也熟悉了一些。NotePad++的搜索替换速度很快,能使用正则表达式,但缺点是文本文件达到约100M后,就经常处理到一半就异常退出,所以对大的词库,不得不把文件分成两个后再进行处理。

词库文件使用的是 HTML 格式语言,为了让词库显示美观,需要掌握基本的 HTML 知识,用于对词库中的字体样式、显示颜色进行美化处理。

第四步,将处理完毕的词库文本文件生成为最终版MDX文件

使用MdxBuilder将前面处理完的词库文本文件生成为MDX文件,得到最终版MDX格式的词库文件。


生成MDX文件

至此,任务完成。

我把这些词库装到手机上的深蓝词典中,用起来非常方便,比原来的界面也好看多了。我再从网上找到了一个377M的真人语音库(非常好的语音库,重点推荐)配合使用,完美地同时满足了查单词和听发音的需求。


下面是前面用到的软件、真人语音库和我加工的几个词典的下载地址,感兴趣的朋友可以下载玩玩。
其中重点推荐真人语音库,完全真人的标准发音,比电脑自动阅读的不知强多少倍,是英语学习的好帮手。
相关下载


看完说点儿什么吧,要不点一下赞或踩一脚也行。您的任何一点儿反馈都能给我帮助,谢谢!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,366评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,521评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,689评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,925评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,942评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,727评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,447评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,349评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,820评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,990评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,127评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,812评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,471评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,017评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,142评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,388评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,066评论 2 355

推荐阅读更多精彩内容