搜索引擎

搜索引擎

为什么需要搜索引擎?

1.对于海量数据的搜索,SQL语句查询几乎 不能达到要求,因为在海量数据中这种查询响应时间 远远超过用户能够接受的等待时间。

2.不能很好的命中索引:对于like这类模糊查询,只有后模糊匹配语句才能命中索引,一旦没有命中索引则会扫描全表 性能低下

搜索引擎的通用算法和结构
  1. 搜索引擎分类
    1. 全文搜索引擎 对网页的文字、图片、视频和链接等内容进行搜索。
    2. 垂直搜索引擎 对网站垂直领域进行收集和处理,如在商旅网站中对机票、旅游信息等进行搜索的搜索引擎
    3. 元数据搜索引擎 对数据的数据进行搜索和处理,如文章中有多少字数,文件的大小等,可将其看做是多种搜索引擎的数据进行整合后再提供给用户的搜索引擎
  2. 必须知道的倒排索引
    1. 正排索引 正排索引是以文档ID为关键字,正排表中记录文档中每个关键字问题的位置信息,查询需要便利每一个文档。正排索引是按照key去寻找具体的value。
    2. 倒排索引 倒排索引是指依据关键词查找文档,用关键词作为索引的key,每个关键词的倒排索引都的值都是一个列表。倒排索引其实就是 先将记录中的某些列进行分词,然后形成分词 与文档ID的映射关系。
互联网搜索引擎的技术架构
  1. 发生在用户搜索前
    1. 使用爬虫技术抓取网络中的网页并且下载到本地
    2. 用去重模块对下载的网页进行去重,确保每个网页都包含独一无二的内容
    3. 用解析模块去对去重后的网页进行解析,用算法对抓取的网页解析,构建倒排索引表,并进行相关的操作。最终搭建出一个链接关系
    4. 对已经完成的倒排索引表及链接关系等进行反作弊处理,例如剔除掉一些敏感信息。
  2. 发生在用户搜索过程中
    1. 搜索引擎接受用户搜索的关键词 进行查询分析
    2. 搜索引擎在缓存系统中搜索是否有与用户搜索关联词匹配的内容
      1. 如果有 则直接返回给用户
      2. 如果没有,则利用内容相似性、链接分析算法对网页进行排序,把用户想要的内容放在展示列表的前面,并把列表放入缓存系统中
Lucene 与Elasticsearch的前世今生

Lucene是早期出现的一些开源搜索引擎当中最受欢迎的,但是随着业务发展Lucene无法满足业务实现。所以基于Lucene构建了一套功能强大的搜索平台Elasticsearch。

Elasticsearch相比Lucence具备如下优势

  1. 接近实时
    1. 从索引一个文档到这个文档能够被搜索到只有很小的延时
    2. 基于Elasticsearch执行搜索和分析可以达到秒级
  2. 集群
    1. 利用Elasticsearch可以很方便地搭建集群。在Elasticsearch集群中有很多节点,其中一个是主节点,主节点是通过枚举产生地。
  3. 节点
    1. client_node 做请求分发
    2. master_node 主节点 所有的新增、删除及数据分片都是由主节点来操作的,它也提供搜索请求功能
    3. data_node 只能进行搜索操作,具体Elasticsearch分配哪个data_node来进行操作是由client_node决定的
  4. 文档
    1. 文档是由Elasticsearch的最小数据单元,一个文档可以是一条商品数据,也可也是一个订单数据通常是JSON格式
  5. 索引
    1. 索引主要用来存储Elasticsearch的数据,索引包含一堆相似的文档数据,例如商品数据,一个索引包含很多文档。
  6. 文档类型
    1. 文档类型用来规定文档中字段内容的数据类型和其他的一些约束,相当于关系型数据库中的表
  7. 分片
    1. 单台机器无法存储大量数据,Elasticsearch可以将一个索引中的数据切分为多个分片,这些分片分布在多台服务器上。有了分片就可以横向扩展,存储更多数据,让索引和分析等操作分不到多台服务器上去执行,从而提升吞吐量和性能。
  8. 副本
    1. 任何一个服务器随时可能出现故障或者宕机,此时分片可能会丢失。因此,可以分为每个分片创建多个副本。副本可以在分片出现故障时提供备用服务。
Elasticsearch分布式架构原理
  1. 添加索引 Elasticsearch中索引与分片的关系
    1. 分片是最小级别的工作单元,它只保存了索引中所有数据的一部分
    2. 所有的文档均存放在分片中,而直接与应用程序进行交互的是索引。
  2. 如何保证高可用?
    1. 当Node节点宕机,会进行重新选举。
  3. 如何扩展?
    1. Elasticsearch要求在创建索引时就指定分片数量,所以主分片在之后后就不能再进行扩充了。
Elasticsearch大数据量 提高Elascicsearch查询效率
  1. 性能力利器FileSystem cache

在查询数据时,Elasticsearch主要依赖于底层的FileSystem Cache,即先通过任意一个分片Shard在FileSystem cache中查找数据,入股哦查到直接返回;否则查询磁盘文件并且将数据缓存到FileSystem cache中

假如有3台服务器,内存都是32GB Elasticsearch的JVM heap被设置为16GB 留给FileSystem Cache的还有16GB

此时3台服务器能够被缓存的数据量=3*16GB=48GB 所以只有这48GB的数据的查询速度会很快。

  1. 数据预热
    1. 如果Elasticsearch集群中每个机器写入的数据都超过FileSystem cache的容量很多, 比如写入70G FileSytem只有30G 那么还有40G就被写入磁盘当中了可以使用数据预热的方案来解决该问题。
      1. 将被频繁的热点数据提前放进Elasticsearch索引中,或者用一个热点数据检测系统定时或者实时地找出热点数据
      2. 将发现的热点数据提前放进FileSystem Cache。这样用户正常访问性能会很高。
  2. 冷热分离
    1. 可以将大量很少被访问的数据放进一个单独的Elasticsearch索引中,将热点数据放进另外一个数据当中。
  3. 索引文档设计
    1. 在Elastcisearch中不建议使用复杂的关联查询 因为它会降低性能,所以如果有复杂的查询建议在程序当中完成
  4. 分页性能优化
    1. 避免使用深度分页
    2. 使用游标查询
    3. 使用search_after搜索
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容