一、现有分词工具包
详情:http://blog.csdn.net/sunfoot001/article/details/51523741
Analyzer在线工具
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
采用了特有的“正向迭代最细粒度切分算法“,具有50万字/秒的高速处理能力。
采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
优化的词典存储,更小的内存占用。支持用户词典扩展定义
针对Lucene全文检索优化的查询分析器IKQueryParser;采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
Analyzer在线工具窗口:
百度在线切词
百度分词算法,实现精确切词匹配。基于主特征空间相似度计算的切分算法及切分框架。构建切分的上下文环境,并且巧妙地把统计特征投影到其主特征空间。(特征空间是由一个矩阵的所有特征向量张成的空间,主特征空间是有该矩阵的主要特征向量张成的空间。相比较特征空间,主特征空间可以覆盖特征空间大部分信息,并且可以辅助相关应用进行有效的降维、除噪和数据变换等),计算相似度,配合主特征空间的维度进行切分。
百度在线切词窗口
由图可知,用户可自行选择切分的精度,其中包括歧义处理、新词识别、多元切分等。
该算法一个核心的要点为主特征空间维度k的确定。换个角度讲,对于给定一个待处理串,如果事先知道切分的片段数,利用一些简单的统计策略如MI已经可以较好的做切分。
该切分算法根据数据分布入手,由切分片段特征展开假设,通过基本token在一定相关语义下统计分布而进行切分。相对基于EM/HMM等模型的无监督切分算法,该方法一个明显的优点是充分考虑了整个切分片段的信息,而不是相邻token之间的统计量;同时,该方法通过空间变换等手段,有效的进行数据除燥等策略,从而是数据分布更趋于真实情况。
同CRF等有监督学习相比,该方法的输入为ngram语言模型,不需人工标注数据 ,同时本方法可以识别新词,这在互联网应用中极具优势。同时针对不同语言不通领域,我们只要提供足够可靠的语言模型就可以在很大程度上解决他们的切分需求。
分词体验
1、Analyzer:
2、百度在线切词工具
原文本:
(1)默认切分:
(2)选择歧义处理:
(3)选择歧义处理、新词识别:
(4)选择歧义处理、新词识别、多元切分:
3、比较分析
由图可知,Analyzer在线工具本身集合了歧义处理,新词识别,多远切分等功能,分词结果与百度分词工具选择了各项精度所得结果最为接近。下面再来比较新词“蓝瘦香菇”的分词: