分词系列

中文分词技术原理及应用:https://sanwen8.cn/p/2919tFk.html   

方法:

基于AC自动机的快速分词:http://kexue.fm/archives/3908/

字标注法和HMM模型:http://kexue.fm/archives/3922/

基于双向LSTM的seq2seq字标注【中文分词】:http://kexue.fm/archives/3924/

轻便的深度学习分词系统:http://kexue.fm/archives/4114/   <并不实用>

基于语言模型的无监督分词:http://kexue.fm/archives/3956/

基于全卷积网络的中文分词:http://kexue.fm/archives/4195/

深度学习分词:http://kexue.fm/archives/4245/

现有的分词算法可分为三大类:基于字符串匹配的分词方法基于理解的分词方法(试验阶段)基于统计的分词方法

基于字符串匹配的分词方法

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的词数最小);还可以将上述各种方法相互组合

这类算法优点是速度块,都是O(n)时间复杂度,实现简单,效果尚可。也有缺点,就是对歧义和未登录词处理不好。常见的基于字符串匹配的分词工具有IKanalyzer,Paoding等。

基于统计的分词方法:因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。

这类分词算法能很好处理歧义和未登录词问题,效果比前一类效果好,但是需要大量的人工标注数据,以及较慢的分词速度。基于统计学**的分词工具有ICTCLAS、结巴分词等。

基于统计的分词方法有CRF(条件随机场)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 转载请注明:终小南 » 中文分词算法总结 什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而...
    kirai阅读 13,337评论 3 24
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 13,226评论 1 25
  • 背景 英文以空格作为分隔符,而中文词语之间没有分隔; 在中文里,“词”和“词组”边界模糊现代汉语的基本表达单元虽然...
    翼徳阅读 7,685评论 0 5
  • 今天,人民币1毛的购买力,相当于30年前人民币多少钱呢? 小编作为上世纪八十年代出生的人,亲身经历了人民币的突飞猛...
    szlysjk阅读 4,453评论 0 0
  • 因懦弱而得出的判断会将事态推向不利的方向。倘若类似死亡通告之类的东西真的出现,那么就应该从正面接受。在认清事实之后...
    伪善的小傻子阅读 1,481评论 0 0

友情链接更多精彩内容