个人专题目录

概述

1. 什么是搜索？

百度：我们比如说想找寻任何的信息的时候，就会上百度去搜索一下，比如说找一部自己喜欢的电影，或者说找一本喜欢的书，或者找一条感兴趣的新闻（提到搜索的第一印象）。百度 != 搜索

1）互联网的搜索：电商网站，招聘网站，新闻网站，各种app

2）IT系统的搜索：OA软件，办公自动化软件，会议管理，日程管理，项目管理。

搜索，就是在任何场景下，找寻你想要的信息，这个时候，会输入一段你要搜索的关键字，然后就期望找到这个关键字相关的有些信息

2. 如果用数据库做搜索会怎么样？

1554688153160.png

用数据库来实现搜索，是不太靠谱的。通常来说，性能会很差的。

3. 什么是全文检索和Lucene？

1）全文检索，倒排索引

全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文搜索搜索引擎数据库中的数据。

1554688173279.png

2）lucene，就是一个jar包，里面包含了封装好的各种建立倒排索引，以及进行搜索的代码，包括各种算法。我们就用java开发的时候，引入lucene jar，然后基于lucene的api进行去进行开发就可以了。

4. 什么是Elasticsearch？

Elasticsearch是一个高度可扩展性的、开源的、全文本搜索和分析引擎。它让你能够快速地存储、搜索和分析大量的数据，接近实时操作。它通常被用作底层引擎/技术，用来驱动那些"需要支持复杂的搜索功能的"应用程序。

Elasticsearch，基于lucene，隐藏复杂性，提供简单易用的restful api接口、java api接口（还有其他语言的api接口）。

关于elasticsearch的一个传说，有一个程序员失业了，陪着自己老婆去英国伦敦学习厨师课程。程序员在失业期间想给老婆写一个菜谱搜索引擎，觉得lucene实在太复杂了，就开发了一个封装了lucene的开源项目，compass。后来程序员找到了工作，是做分布式的高性能项目的，觉得compass不够，就写了elasticsearch，让lucene变成分布式的系统。

Elasticsearch是一个实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析。

全文检索：将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。

结构化检索：我想搜索商品分类为日化用品的商品都有哪些，select * from products where category_id='日化用品'

数据分析：电商网站，最近7天牙膏这种商品销量排名前10的商家有哪些；新闻网站，最近1个月访问量排名前3的新闻版块是哪些

5. Elasticsearch的适用场景

维基百科，类似百度百科，牙膏，牙膏的维基百科，全文检索，高亮，搜索推荐。
The Guardian（国外新闻网站），类似搜狐新闻，用户行为日志（点击，浏览，收藏，评论）+ 社交网络数据（对某某新闻的相关看法），数据分析，给到每篇新闻文章的作者，让他知道他的文章的公众反馈（好，坏，热门，垃圾，鄙视，崇拜）。
Stack Overflow（国外的程序异常讨论论坛），IT问题，程序的报错，提交上去，有人会跟你讨论和回答，全文检索，搜索相关问题和答案，程序报错了，就会将报错信息粘贴到里面去，搜索有没有对应的答案
GitHub（开源代码管理），搜索上千亿行代码。
国内：站内搜索（电商，招聘，门户，等等），IT系统搜索（OA，CRM，ERP，等等），数据分析（ES热门的一个使用场景）。

6. Elasticsearch的特点

可以作为一个大型分布式集群（数百台服务器）技术，处理PB级数据，服务大公司；也可以运行在单机上，服务小公司
Elasticsearch不是什么新技术，主要是将全文检索、数据分析以及分布式技术，合并在了一起，才形成了独一无二的ES；lucene（全文检索），商用的数据分析软件（也是有的），分布式数据库（mycat）
对用户而言，是开箱即用的，非常简单，作为中小型的应用，直接3分钟部署一下ES，就可以作为生产环境的系统来使用了，数据量不大，操作不是太复杂
数据库的功能面对很多领域是不够用的（事务，还有各种联机事务型的操作）；特殊的功能，比如全文检索，同义词处理，相关度排名，复杂数据分析，海量数据的近实时处理；Elasticsearch作为传统数据库的一个补充，提供了数据库所不能提供的很多功能

7. Elasticsearch的核心概念

es2.png

近实时 NRT（Near Realtime）

近实时，两个意思，从写入数据到数据可以被搜索到有一个小延迟（大概1秒）；基于es执行搜索和分析可以达到秒级。

Cluster（集群）

集群包含多个节点，每个节点属于哪个集群是通过一个配置（集群名称，默认是elasticsearch）来决定的，对于中小型应用来说，刚开始一个集群就一个节点很正常。集群由一个唯一名字来标识，默认情况下，该名字为 "elasticsearch"。集群名字是很重要的，因为节点只能通过集群名字来加入该集群从而成为它的一部分.

Elasticsearch集群由一或多个节点组成，其中有一个主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。Elasticsearch的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部看Elasticsearch集群，在逻辑上是个整体，你与集群中的任何一个节点通信和与整个Elasticsearch集群通信是等价的。也就是说，主节点的存在不会产生单点安全隐患、并发访问瓶颈等问题。

Node（节点）

集群中的一个节点，节点也有一个名称（默认是随机分配的），节点名称很重要（在执行运维管理操作的时候），默认节点会去加入一个名称为“elasticsearch”的集群，如果直接启动一堆节点，那么它们会自动组成一个elasticsearch集群，当然一个节点也可以组成一个elasticsearch集群。

Shards & Replicas

一个索引可能会存储大量的数据，最终超过单个节点的硬件容量。比如，某个索引有10亿个文档，占用 1TB 的磁盘空间，这样的话，单个节点的磁盘可能就装不下，此外，由单个节点来处理所有搜索请求可能会很慢。

要想解决这个问题，Elasticsearch允许你将索引切割成多块，这些数据块叫做shards。当你创建一个索引时，你可以定义将shards数量定义为任何值。每个shard自身是一个功能完整的、独立的"index"，可以被存储在集群中的任何节点之上。

数据切割很重要，主要有两个原因：

允许你水平地切割/扩展你的内容容量。
允许你跨越多个shards(它们可以位于多个节点之上)执行分发和并行处理，这样就提高了性能/吞吐量。

shard是如何分布的，其中的文档是如何被汇聚回搜索请求的，完全由Elasticsearch管理，对于用户而言是透明的。

在一个网络/云环境中，任何时候都可能出现故障，故障转移机制是非常重要的，也是强烈推荐的，用于防备某个shard/node由于什么原因而离线或消失。因此，Elasticsearch允许你将index的 shards拷贝成多份，叫做replica shards，或者简称 replicas。

复制之所以很重要，主要有两个原因：

它提供了高可用性，以防某个 shard/node 发生故障。因此，请一定要注意，某个replica shard永远不要和它所拷贝的original/primary shard位于相同的节点上。
它允许你扩展你的搜索容量/吞吐量，因为搜索操作可以在所有replicas上并行执行。

总结一下，每个索引都可以被分割成多个shards。一个索引可以被复制零次(也即时没有复制品)或多次。一旦某个索引被复制过了，它就拥有primary shards (原来的、被复制的shards) 以及 replica shards (primary shards的复制品)。你可以在创建索引时，为之定义shards 和 replicas的数量。在索引被创建好之后，你可以在任何时候，动态地修改replicas的数量，但是，你不能修改 shards的数量。

默认情况下，Elasticsearch中的每个索引都会被指定5个primary shards以及1个replica，这意味着，在你的集群中，你需要至少两个节点，你的索引具有5个primary shards以及另外5个replica shards (index的一份完整的复制品)，每个索引总该有10个切片(shards)。

Index（索引-数据库）

索引包含一堆有相似结构的文档数据，比如可以有一个客户索引，商品分类索引，订单索引，索引有一个名称。一个index包含很多document，一个index就代表了一类类似的或者相同的document。比如说建立一个product index，商品索引，里面可能就存放了所有的商品数据，所有的商品document。

索引创建规则：

仅限小写字母
不能包含\、/、 *、?、"、<、>、|、#以及空格符等特殊符号
从7.0版本开始不再包含冒号
不能以-、_或+开头
不能超过255个字节（注意它是字节，因此多字节字符将计入255个限制）

Type（类型-表）

每个索引里都可以有一个或多个type，type是index中的一个逻辑数据分类，一个type下的document，都有相同的field，比如博客系统，有一个索引，可以定义用户数据type，博客数据type，评论数据type。

一种
type 就像一类表。如用户表、角色表等。在 Elasticsearch7.X 默认 type 为 _doc

ES 5.x 中一个 index 可以有多种 type 。
ES 6.x 中一个 index 只能有一种 type 。
ES 7.x 以后，将逐步移除 type 这个概念，现在的操作已经不再使用，默认 _doc

商品index，里面存放了所有的商品数据，商品document

但是商品分很多种类，每个种类的document的field可能不太一样，比如说电器商品，可能还包含一些诸如售后时间范围这样的特殊field；生鲜商品，还包含一些诸如生鲜保质期之类的特殊field

type，日化商品type，电器商品type，生鲜商品type

日化商品type：product_id，product_name，product_desc，category_id，category_name

电器商品type：product_id，product_name，product_desc，category_id，category_name，service_period

生鲜商品type：product_id，product_name，product_desc，category_id，category_name，eat_period

每一个type里面，都会包含一堆document

{
  "product_id": "1",
  "product_name": "长虹电视机",
  "product_desc": "4k高清",
  "category_id": "3",
  "category_name": "电器",
  "service_period": "1年"
}
{
  "product_id": "2",
  "product_name": "基围虾",
  "product_desc": "纯天然，冰岛产",
  "category_id": "4",
  "category_name": "生鲜",
  "eat_period": "7天"
}

Document（文档-行）

文档是es中的最小数据单元，一个document可以是一条客户数据，一条商品分类数据，一条订单数据，通常用JSON数据结构表示，每个index下的type中，都可以去存储多个document。

Field（字段-列）

Field是Elasticsearch的最小单位。一个document里面有多个field，每个field就是一个数据字段。

product document
{
  "product_id": "1",
  "product_name": "高露洁牙膏",
  "product_desc": "高效美白",
  "category_id": "2",
  "category_name": "日化用品"
}

mapping（映射-约束）

数据如何存放到索引对象上，需要有一个映射配置，包括：数据类型、是否存储、是否分词等。

这样就创建了一个名为blog的Index。Type不用单独创建，在创建Mapping 时指定就可以。Mapping用来定义Document中每个字段的类型，即所使用的 analyzer、是否索引等属性，非常关键等。创建Mapping 的代码示例如下：

client.indices.putMapping({
    index : 'blog',
    type : 'article',
    body : {
        article: {
            properties: {
                id: {
                    type: 'string',
                    analyzer: 'ik',
                    store: 'yes',
                },
                title: {
                    type: 'string',
                    analyzer: 'ik',
                    store: 'no',
                },
                content: {
                    type: 'string',
                    analyzer: 'ik',
                    store: 'yes',
                }
            }
        }
    }
});

elasticsearch与数据库的类比

关系型数据库（比如Mysql）	非关系型数据库（Elasticsearch）
数据库Database	索引Index
表Table	类型Type
数据行Row	文档Document
数据列Column	字段Field
约束 Schema	映射Mapping

8. 分片的大小和数量怎么设定？

注1：小的分片会造成小的分段，从而会增加开销。我们的目的是将平均分片大小控制在几 GB 到几十 GB 之间。对于基于时间的数据的使用场景来说，通常将分片大小控制在 20GB 到 40GB 之间。

注2：由于每个分片的开销取决于分段的数量和大小，因此通过 forcemerge 操作强制将较小的分段合并为较大的分段，这样可以减少开销并提高查询性能。理想情况下，一旦不再向索引写入数据，就应该这样做。请注意，这是一项比较耗费性能和开销的操作，因此应该在非高峰时段执行。

注3：我们可以在节点上保留的分片数量与可用的堆内存成正比，但 Elasticsearch 没有强制的固定限制。一个好的经验法则是确保每个节点的分片数量低于每GB堆内存配置20到25个分片。因此，具有30GB堆内存的节点应该具有最多600-750个分片，但是低于该限制可以使其保持更好。这通常有助于集群保持健康。

注4：如果担心数据的快速增长, 建议根据这条限制: ElasticSearch推荐的最大JVM堆空间是 30~32G, 把分片最大容量限制为 30GB, 然后再对分片数量做合理估算。例如, 如果的数据能达到 200GB, 则最多分配7到8个分片。

9. ES存入数据和搜索数据机制

es读写底层原理剖析.png

索引对象（blog）：存储数据的表结构，任何搜索数据，存放在索引对象上。
映射（mapping）：数据如何存放到索引对象上，需要有一个映射配置，包括：数据类型、是否存储、是否分词等。
文档（document）：一条数据记录，存在索引对象上
文档类型（type）：一个索引对象，存放多种类型数据，数据用文档类型进行标识

10. 分布式特性

es支持集群模式，是一个分布式系统，其好处主要有两个：
- 增大系统容量，如内存、磁盘、使得es集群可以支持PB级的数据
- 提高系统可用性，即使部分节点停止服务，整个集群依然可以正常服务
es集群由多个es实例组成
- 不同集群通过集群名字来区分，可通过cluster.name进行修改，默认为elasticsearch
- 每个es实例本质上是一个JVM进程，且有自己的名字，通过node.name进行修改

cerebro的安装与运行

cerebro地址：https://github.com/lmenezes/cerebro

下载解压

https://github.com/lmenezes/cerebro/releases

启动cerebro

wget https://github.com/lmenezes/cerebro/releases/download/v0.8.1/cerebro-0.8.1.tgz
tar xzf cerebro-0.8.1.tgz

cerebro-0.8.1/bin/cerebro
[info] play.api.Play - Application started (Prod)
[info] p.c.s.AkkaHttpServer - Listening for HTTP on /0:0:0:0:0:0:0:0:9000

指定端口

bin/cerebro -Dhttp.port=8080

配置服务器
非必须：如果经常使用的话，可以先在conf/application.conf中配置好ElasticSearch服务器地址

访问cerebro服务

输入ElasticSearch的URL并点击connect按钮，成功连接即可显示如下图所示信息。需要注意的是由于cerebro运行在容器中，直接输入localhost:9200即使通过浏览器能够访问也可能无法连接，需要保证的是在cerebro的容器中能够访问到的URL，比如这里使用的本机的IP

概要信息
节点信息
Rest接口
其它功能

启动一个节点

bin/elasticsearch -E cluster.name=my_cluster -E node.name=node1

elasticsearch之一概述