Elasticsearch基本概念

Elasticsearch是什么?是一种NonSQL的存储,从名字上面可以看出,search表示最大的特点是在于搜索方面特别强大,elastic表示天然支持集群式部署的。从使用的角度讲,所有客户端和es的沟通都是的RESTful的http请求,传输的数据都是json格式的。

存储的基本单位是document,这可以看做是SQL DB里面的一条条记录。往上一层是type,相当于一个表,定义了document的结构。当然, 这个结构会比SQL DB的一个个字段要复杂一些。再往上一次是index,相当于DB schema,是最顶上的一层结构,拥有自己的各种setting。

为什么说elasticsearch搜索功能特别强大呢,因为在每个document插入到es中的时候都要进行索引(index)。这里的index是做动词,指的是讲文本内容做一些分析,处理最后生成一个个倒排索引(inverted index)。那么又为什么叫做倒排索引呢?听上去是普通的索引做了倒排序。其实不是的,要知道倒排索引,首先要知道正排索引(forward index)是长什么样的。

举个例子,现在有两个document,内容各有一句话
id: 1, content: "今天我要加班,别打扰我。"
id: 2, content: “今天我不加班,我要出去浪。”
这里去掉标点符号,利用里面的分词(term)作为index的值。索引生成完之后,要和原文建立对应关系,如下表,

Document Id Index Hit Place
1 今天 1 1
1 2 2, 7
1 1 3
1 加班 1 4
1 1 5
1 打扰 1 6
2 今天 1 1
2 2 2, 5
2 1 3
2 加班 1 4
2 1 6
2 出去 1 7
2 1 8

其中,Hit表示这个index在document中的出现次数,而Place指的是出现的位置。这个表格就是一个简易的正排索引的抽象。

在数据查询阶段,首先把待查询字符串做分词,然后把结果与索引进行匹配,遍历所有的document,然后根据索引关系依次找到每个document中包含的分词,与待查询的分词做比较,最后输出匹配到的document。

上述的动作在功能上是没有问题的,但是有两个主要的问题。第一,搜索的时候需要遍历所有的document,第二,即使一些document中存在相同的分词,比如上面的“今天”,“我”,“加班”,但是这些分词依然会再次被存储下来,因为正向索引的归类依据是document。

所以倒排索引与正排索引的区别就在于通过分词建立索引时的依据不同。倒排索引是在分词做完之后,先把索引项归类,比如下表,

Index Document Id Hit Place
今天 1, 2 1, 1 [1], [1]
1, 2 2, 2 [2, 7], [2, 5]
1, 2 1, 1 [3], [6]
加班 1, 2 1, 1 [4], [4]
1 1 [5]
打扰 1 1 [6]
2 1 [3]
出去 2 1 [7]
2 1 [8]

可以看出,这样的索引结构可以大大节省存储空间,因为文档越多,重合的分词也会越多,倒排索引的威力就越大。同时,在搜索的时候,只要遍历所有的倒排索引内的分词,就可以找到对应的document。所以,倒排索引是在文本搜索中很有效的数据结构。

Elasticsearch中建立倒排索引的过程会比上面的例子要复杂一些,大致的过程是这样,


在接触ES的时候很自然的会和SQL DB做比较,接下来会从SQL中的DDL和DML入手,看看ES是如何使用的。

这一系列的文章基于Elasticsearch版本5.1.2。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342