ik分词器:
分词技术是搜索技术里面的一块基石。很多人用过,如果你只是为了简单快速地搭一个搜索引擎,你确实不用了解太深。但一旦涉及效果问题,分词器上就可以做很多文章。例如, 在实我们际用作电商领域的搜索的工作中,类目预判的实现就极须依赖分词,至少需要做到可以对分词器动态加规则。再一个简单的例子,如果你的优化方法就是对不同的词分权重,提高一些重点词的权重的话,你就需要依赖并理解分词器。本文将根据ik分配器的原码对其实现做一定分析。其中的重点,
主要3点:1、词典树的构建,即将现在的词典加载到一个内存结构中去,
2、词的匹配查找,也就相当生成对一个句话中词的切分方式,
3、歧义判断,即对不同切分方式的判定,哪种应是更合理的
Logstash:
Logstash是一个开源的服务器端数据处理管道,可以同时从多个数据源获取数据,并对其进行转换,然后将其发送到你最喜欢的“存储”。(当然,我们最喜欢的是Elasticsearch)
过滤器:实时解析和转换数据
数据从源传输到存储库的过程中,Logstash 过滤器能够解析各个事件,识别已命名的字段以构建结构,并将它们转换成通用格式,以便更轻松、更快速地分析和实现商业价值。
输出:选择你的存储,导出你的数据
尽管 Elasticsearch 是我们的首选输出方向,能够为我们的搜索和分析带来无限可能,但它并非唯一选择。
Logstash 提供众多输出选择,您可以将数据发送到您要指定的地方,并且能够灵活地解锁众多下游用例。
今天主要学的就是和elasticsearch相关的知识,学习啦如何连接elasticsearch的网页elasticsearch-head-master,这样可以让我们可以更加方便的操作elasticsearch和更加直观的看到操作elasticsearch的变化,还有就是学习啦如何使用java对elasticsearch进行操作,然后就是吧elasticsearch和我们自己用的数据库连接啦,这样可以方便我们查看数据和调用数据。