搜索学习基础--分词器的使用

代码实现倒排索引这节中,我们的分词方式是对文本按空格分词。而在我们实际过程中,我们对分词的要求是苛刻的,我们会在不同的场景下使用不同的分词器。现在,我们先使用标准分词器StandardAnalyzer这个工具来进行分词的测试。

  • 首先我们需要引入jar包,这是一个Lucene全文检索引擎中自带的分词器.

      <dependency>
               <groupId>org.apache.lucene</groupId>
                <artifactId>lucene-analyzers-common</artifactId>
                <version>4.7.2</version>
      </dependency>  
    
  • 简单的使用

      import org.apache.lucene.analysis.Analyzer;
      import org.apache.lucene.analysis.TokenStream;
      import org.apache.lucene.analysis.core.SimpleAnalyzer;
      import org.apache.lucene.analysis.standard.StandardAnalyzer;
      import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
      import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
      import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
      
      import java.io.IOException;
      import java.io.StringReader;
      
      /**
       * created by yuyufeng on 2017/11/9.
       */
      public class LearnAnalyzer {
          public static void main(String[] args) {
              // 构建分词器
              Analyzer analyzer = new StandardAnalyzer();
      
              // 获取Lucene的TokenStream对象
              TokenStream ts = null;
              try {
                  ts = analyzer.tokenStream("myfield", new StringReader(
                          "这是一个分词的例子,我们来使用一下试试。 Let's use it."));
                  // 获取词元位置属性
                  OffsetAttribute offset = ts.addAttribute(OffsetAttribute.class);
                  // 获取词元文本属性
                  CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);
                  // 获取词元文本属性
                  TypeAttribute type = ts.addAttribute(TypeAttribute.class);
      
                  // 重置TokenStream(重置StringReader)
                  ts.reset();
                  // 迭代获取分词结果
                  while (ts.incrementToken()) {
                      System.out.println(offset.startOffset() + " - " + offset.endOffset() + " : "
                              + term.toString() + " | " + type.type());
                  }
                  // 关闭TokenStream(关闭StringReader)
                  ts.end(); // Perform end-of-stream operations, e.g. set the final offset.
      
              } catch (IOException e) {
                  e.printStackTrace();
              } finally {
                  // 释放TokenStream的所有资源
                  if (ts != null) {
                      try {
                          ts.close();
                      } catch (IOException e) {
                          e.printStackTrace();
                      }
                  }
              }
          }
      }
    

运行结果

0 - 1 : 这 | <IDEOGRAPHIC>
1 - 2 : 是 | <IDEOGRAPHIC>
2 - 3 : 一 | <IDEOGRAPHIC>
3 - 4 : 个 | <IDEOGRAPHIC>
4 - 5 : 分 | <IDEOGRAPHIC>
5 - 6 : 词 | <IDEOGRAPHIC>
6 - 7 : 的 | <IDEOGRAPHIC>
7 - 8 : 例 | <IDEOGRAPHIC>
8 - 9 : 子 | <IDEOGRAPHIC>
10 - 11 : 我 | <IDEOGRAPHIC>
11 - 12 : 们 | <IDEOGRAPHIC>
12 - 13 : 来 | <IDEOGRAPHIC>
13 - 14 : 使 | <IDEOGRAPHIC>
14 - 15 : 用 | <IDEOGRAPHIC>
15 - 16 : 一 | <IDEOGRAPHIC>
16 - 17 : 下 | <IDEOGRAPHIC>
17 - 18 : 试 | <IDEOGRAPHIC>
18 - 19 : 试 | <IDEOGRAPHIC>
21 - 26 : let's | <ALPHANUM>
27 - 30 : use | <ALPHANUM>

StandardAnalyzer是一个标准的分词器,它以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符。而我们的中文词组的分词显然不同。所以,对于中文的分词,我们常用的有IK分词器

<dependency>
  <groupId>com.janeluo</groupId>
  <artifactId>ikanalyzer</artifactId>
  <version>2012_u6</version>
</dependency>

上面的代码修改分词器的实现:
Analyzer analyzer = new IKAnalyzer(true);

分词结果
0 - 2 : 这是 | CN_WORD
2 - 4 : 一个 | CN_WORD
4 - 6 : 分词 | CN_WORD
6 - 7 : 的 | CN_WORD
7 - 9 : 例子 | CN_WORD
10 - 12 : 我们 | CN_WORD
12 - 14 : 来使 | CN_WORD
14 - 17 : 用一下 | CN_WORD
17 - 19 : 试试 | CN_WORD
21 - 24 : let | ENGLISH
25 - 26 : s | ENGLISH
27 - 30 : use | ENGLISH
31 - 34 : it. | LETTER

显然,这个是中英文分词的,相比StandardAnalyzer更适合我们日常使用

常见的分词器

名称 分词规则 备注
WhitespaceAnalyzer 以空格作为切词标准,不对语汇单元进行其他规范化处理。 适用英文
SimpleAnalyzer 以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符
StopAnalyzer 停顿词分析器会去除一些常有a,the,an等等,也可以自定义禁用词
StandardAnalyzer 标准分析器是Lucene内置的分析器,会将语汇单元转成小写形式,并去除停用词及标点符号
CJKAnalyzer 中日韩分析器,能对中,日,韩语言进行分析的分词器 对中文支持效果一般
SmartChineseAnalyzer 对中文支持稍好,但扩展性差,扩展词库,禁用词库和同义词库等不好处理
IKAnalyzer 支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符优化的词典存储,更小的内存占用。支持用户词典扩展定义 常用
HanLP HanLP实现了许多种分词算法,每个分词器都支持特定的配置 国产,实现了许多种分词算法,支持自命名体识别等
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 随着社会科技与生活质量的飞度发展和提高,在这个追逐物欲的社会,一切追求快节奏的时代有多少人能停下脚步,随心所欲,活...
    F与你阅读 194评论 0 1
  • 昨去看了《Dangal》的电影(中文译名《摔跤吧爸爸》,故事自带的真实力量让人触动,反正我是哭了。 一开始这是爸爸...
    张韫睿Rain阅读 1,087评论 0 0
  • 夏季风微微热 像极了青春躁动 莲池的含苞欲放未开 风中飘过一缕香甜 你摇曳身躯 莲池万千你先开眼 风冷风暖 你褪去...
    三公子时夜阅读 209评论 0 4