分词系列

分词系列

中文分词技术原理及应用：https://sanwen8.cn/p/2919tFk.html

方法：

基于AC自动机的快速分词：http://kexue.fm/archives/3908/

字标注法和HMM模型：http://kexue.fm/archives/3922/

基于双向LSTM的seq2seq字标注【中文分词】：http://kexue.fm/archives/3924/

轻便的深度学习分词系统：http://kexue.fm/archives/4114/ <并不实用>

基于语言模型的无监督分词：http://kexue.fm/archives/3956/

基于全卷积网络的中文分词：http://kexue.fm/archives/4195/

深度学习分词：http://kexue.fm/archives/4245/

现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法（试验阶段）和基于统计的分词方法

基于字符串匹配的分词方法

1）正向最大匹配法（由左到右的方向）；

2）逆向最大匹配法（由右到左的方向）；

3）最少切分（使每一句中切出的词数最小）；还可以将上述各种方法相互组合

这类算法优点是速度块，都是O(n)时间复杂度，实现简单，效果尚可。也有缺点，就是对歧义和未登录词处理不好。常见的基于字符串匹配的分词工具有IKanalyzer，Paoding等。

基于统计的分词方法：因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。

这类分词算法能很好处理歧义和未登录词问题，效果比前一类效果好，但是需要大量的人工标注数据，以及较慢的分词速度。基于统计学**的分词工具有ICTCLAS、结巴分词等。

基于统计的分词方法有CRF（条件随机场）

最后编辑于：2017.12.08 05:09:55

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

分词系列

相关阅读更多精彩内容

友情链接更多精彩内容