无标题文章

Ik分词器

有的时候,用户搜索的关键字,可能是一句话,不是很规范。所以在 Solr 中查询出的时候,就需要将用户输入的关键字进行分词。 

  目前有很多优秀的中文分词组件。本篇只以  IKAnalyzer 分词为例,讲解如何在 solr  中及集成中文分词,使用 IKAnalyzer的原因 IK 比其他中文分词维护的勤快,和 Solr 集成也相对容易。具体就不多介绍,这里直接solr 集成 IK 的方法.

分词的测试使用curl或者postman都可以,我个人倾向于postman,主要是能保存,要方便一些

ik分词器:

分词技术是搜索技术里面的一块基石。很多人用过,如果你只是为了简单快速地搭一个搜索引擎,你确实不用了解太深。但一旦涉及效果问题,分词器上就可以做很多文章。例如, 在实我们际用作电商领域的搜索的工作中,类目预判的实现就极须依赖分词,至少需要做到可以对分词器动态加规则。再一个简单的例子,如果你的优化方法就是对不同的词分权重,提高一些重点词的权重的话,你就需要依赖并理解分词器。本文将根据ik分配器的原码对其实现做一定分析。其中的重点,

主要3点:1、词典树的构建,即将现在的词典加载到一个内存结构中去,

2、词的匹配查找,也就相当生成对一个句话中词的切分方式,

3、歧义判断,即对不同切分方式的判定,哪种应是更合理的

今天主要学的就是和elasticsearch相关的知识,学习啦如何连接elasticsearch的网页elasticsearch-head-master,这样可以让我们可以更加方便的操作elasticsearch和更加直观的看到操作elasticsearch的变化,还有就是学习啦如何使用java对elasticsearch进行操作,然后就是吧elasticsearch和我们自己用的数据库连接啦,这样可以方便我们查看数据和调用数据。

作者:少年_2ddb

链接:https://www.jianshu.com/p/e910d9df8dcb

来源:简书

简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    小迈克阅读 3,063评论 1 3
  • 第一章 1.Web信息检索的特点是什么? 答:(1)规模大。人类生产40亿网页[Google,2004],而书才1...
    叕燚阅读 380评论 0 0
  • 越害怕的东西越要去学习,对于程序员来说害怕莫过于美术,所以开始学点3d建模。 开源免费的Blender近年来大热,...
    好孩子橙米文阅读 550评论 0 0
  • spring官方文档:http://docs.spring.io/spring/docs/current/spri...
    牛马风情阅读 1,754评论 0 3
  • 第5章 引用类型(返回首页) 本章内容 使用对象 创建并操作数组 理解基本的JavaScript类型 使用基本类型...
    大学一百阅读 3,272评论 0 4