搜索引擎
为什么需要搜索引擎?
1.对于海量数据的搜索,SQL语句查询几乎 不能达到要求,因为在海量数据中这种查询响应时间 远远超过用户能够接受的等待时间。
2.不能很好的命中索引:对于like这类模糊查询,只有后模糊匹配语句才能命中索引,一旦没有命中索引则会扫描全表 性能低下
搜索引擎的通用算法和结构
- 搜索引擎分类
- 全文搜索引擎 对网页的文字、图片、视频和链接等内容进行搜索。
- 垂直搜索引擎 对网站垂直领域进行收集和处理,如在商旅网站中对机票、旅游信息等进行搜索的搜索引擎
- 元数据搜索引擎 对数据的数据进行搜索和处理,如文章中有多少字数,文件的大小等,可将其看做是多种搜索引擎的数据进行整合后再提供给用户的搜索引擎
- 必须知道的倒排索引
- 正排索引 正排索引是以文档ID为关键字,正排表中记录文档中每个关键字问题的位置信息,查询需要便利每一个文档。正排索引是按照key去寻找具体的value。
- 倒排索引 倒排索引是指依据关键词查找文档,用关键词作为索引的key,每个关键词的倒排索引都的值都是一个列表。倒排索引其实就是 先将记录中的某些列进行分词,然后形成分词 与文档ID的映射关系。
互联网搜索引擎的技术架构
- 发生在用户搜索前
- 使用爬虫技术抓取网络中的网页并且下载到本地
- 用去重模块对下载的网页进行去重,确保每个网页都包含独一无二的内容
- 用解析模块去对去重后的网页进行解析,用算法对抓取的网页解析,构建倒排索引表,并进行相关的操作。最终搭建出一个链接关系
- 对已经完成的倒排索引表及链接关系等进行反作弊处理,例如剔除掉一些敏感信息。
- 发生在用户搜索过程中
- 搜索引擎接受用户搜索的关键词 进行查询分析
- 搜索引擎在缓存系统中搜索是否有与用户搜索关联词匹配的内容
- 如果有 则直接返回给用户
- 如果没有,则利用内容相似性、链接分析算法对网页进行排序,把用户想要的内容放在展示列表的前面,并把列表放入缓存系统中
Lucene 与Elasticsearch的前世今生
Lucene是早期出现的一些开源搜索引擎当中最受欢迎的,但是随着业务发展Lucene无法满足业务实现。所以基于Lucene构建了一套功能强大的搜索平台Elasticsearch。
Elasticsearch相比Lucence具备如下优势
- 接近实时
- 从索引一个文档到这个文档能够被搜索到只有很小的延时
- 基于Elasticsearch执行搜索和分析可以达到秒级
- 集群
- 利用Elasticsearch可以很方便地搭建集群。在Elasticsearch集群中有很多节点,其中一个是主节点,主节点是通过枚举产生地。
- 节点
- client_node 做请求分发
- master_node 主节点 所有的新增、删除及数据分片都是由主节点来操作的,它也提供搜索请求功能
- data_node 只能进行搜索操作,具体Elasticsearch分配哪个data_node来进行操作是由client_node决定的
- 文档
- 文档是由Elasticsearch的最小数据单元,一个文档可以是一条商品数据,也可也是一个订单数据通常是JSON格式
- 索引
- 索引主要用来存储Elasticsearch的数据,索引包含一堆相似的文档数据,例如商品数据,一个索引包含很多文档。
- 文档类型
- 文档类型用来规定文档中字段内容的数据类型和其他的一些约束,相当于关系型数据库中的表
- 分片
- 单台机器无法存储大量数据,Elasticsearch可以将一个索引中的数据切分为多个分片,这些分片分布在多台服务器上。有了分片就可以横向扩展,存储更多数据,让索引和分析等操作分不到多台服务器上去执行,从而提升吞吐量和性能。
- 副本
- 任何一个服务器随时可能出现故障或者宕机,此时分片可能会丢失。因此,可以分为每个分片创建多个副本。副本可以在分片出现故障时提供备用服务。
Elasticsearch分布式架构原理
- 添加索引 Elasticsearch中索引与分片的关系
- 分片是最小级别的工作单元,它只保存了索引中所有数据的一部分
- 所有的文档均存放在分片中,而直接与应用程序进行交互的是索引。
- 如何保证高可用?
- 当Node节点宕机,会进行重新选举。
- 如何扩展?
- Elasticsearch要求在创建索引时就指定分片数量,所以主分片在之后后就不能再进行扩充了。
Elasticsearch大数据量 提高Elascicsearch查询效率
- 性能力利器FileSystem cache
在查询数据时,Elasticsearch主要依赖于底层的FileSystem Cache,即先通过任意一个分片Shard在FileSystem cache中查找数据,入股哦查到直接返回;否则查询磁盘文件并且将数据缓存到FileSystem cache中
假如有3台服务器,内存都是32GB Elasticsearch的JVM heap被设置为16GB 留给FileSystem Cache的还有16GB
此时3台服务器能够被缓存的数据量=3*16GB=48GB 所以只有这48GB的数据的查询速度会很快。
- 数据预热
- 如果Elasticsearch集群中每个机器写入的数据都超过FileSystem cache的容量很多, 比如写入70G FileSytem只有30G 那么还有40G就被写入磁盘当中了可以使用数据预热的方案来解决该问题。
- 将被频繁的热点数据提前放进Elasticsearch索引中,或者用一个热点数据检测系统定时或者实时地找出热点数据
- 将发现的热点数据提前放进FileSystem Cache。这样用户正常访问性能会很高。
- 冷热分离
- 可以将大量很少被访问的数据放进一个单独的Elasticsearch索引中,将热点数据放进另外一个数据当中。
- 索引文档设计
- 在Elastcisearch中不建议使用复杂的关联查询 因为它会降低性能,所以如果有复杂的查询建议在程序当中完成
- 分页性能优化
- 避免使用深度分页
- 使用游标查询
- 使用search_after搜索