《数学之美》之谈谈分词

如果

简书可以插入音乐

我一定

放个十首八首

因为

听歌看书码字实在太**high了

//:用假诗体开个玩笑~~~

在数字时代,拼音文字有着太多的无奈。中文输入法的诞生就有一本书去描述,是个波澜壮阔的研究和产业史。

不止是在输入的时候有麻烦,对于机器如何来理解亚洲语言这种词与词之间没有明确分隔符的语言,也是个大麻烦。

这问题不仅在现在存在,以前也存在。如果你见过没有注解的论语,那也是一片片的字,难以理解其中具有二义性的语句。

一开始,中文的分词也是从查字典的角度去让机器理解的。但是,一旦遇到二义性,就跟一个完全对文言文没有经验的人一样,字都认识,组合成句子却不知道什么意思了。

还是要靠统计语言模型的力量。

最好的分词方法应该是要保证分完词之后,这个句子出现的概率最大。这是个动态规划的问题,用到了维比特算法。

好消息是,

分词已经属于已经解决的问题,并非是什么难题。只要采用基本的统计语言模型,和一些业界熟知的技巧既能得到非常好的结果。甚至,不同的分词器产生的结果的差异要远远小于不同人之间看法的差异。这意味着,无法更优解了。

那分词是不是就无事可干了?也不是的。

对于“北京大学”,应该分成“北京”和“大学”还是“北京大学”,对于不同学者来说,还是有争议的。对于不同的使用场景,分词的颗粒度也会有争议。对于某些应用来说,需要尽可能地找到各种复合词,有些则相反。

而我们又不想构建不同的分词器(鬼知道要分成多少种)。因此,就需要让分词器支持不同的应用场景需要。这样,也就需要建立基本词表和复合词表,由复合词表来描述复合词由哪些基本词构成。

工作就来了。

我们需要不断地做数据挖掘,去完善复合词的词典。这也是近些年来中文分词工作的重点。

目前市场上的分词产品很多,百度出来一大堆,性能分析也有。对于我们正在用的python来说,jieba模块是比较好的开源工具,还支持复合词词典。

收尾。此时在放的歌是《Defeated》~~~~~~~歌词有种老人与海中“人可以被毁灭,但不可以被打败”的意思(哈哈哈,这鸡汤当然是网友熬出来的,拿来用用)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 语言与精神分析 四川大学哲学系 霍大同 第一讲 1999年3月1日 这是一个比较困难的题目,我准备讲的课的题目是“...
    团的花园阅读 10,927评论 0 19
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 13,181评论 1 25
  • 转载请注明:终小南 » 中文分词算法总结 什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而...
    kirai阅读 13,333评论 3 24
  • 热播剧《人民的名义》第26集中,侯亮平送给赵东来一本神秘的书,叫《天局》。好奇搜了一下,竟然真的有这本书!作...
    海边的阿迪阅读 4,596评论 0 0
  • 由于人口的爆炸、空间的局限等原因,如何对房间进行整理和收纳似乎变身为当今的生活时尚和潮流。收纳盒、收纳袋、各式储物...
    若水Dewlight阅读 2,425评论 2 0

友情链接更多精彩内容