ElasticSearch核心之——Mapping设置

前言

我们知道,我们是在ElasticSearch(简称ES)上创建索引文档后,哪怕我们之前没有指定字段的类型,但ES还是会给我们的文档数据给予相对应的字段属性,这背后是什么原理呢?同时,ES中又提供了哪些常见的数据类型给我们使用呢?是否可以自定义Mapping模板来方便自己使用呢?本篇文章将围绕ES的Mapping配置来对上面的问题进行一一解答,希望可以对这方面不熟悉的读者一个参考。

注意:文章中的演示版本为Elastic Search7.6.1,具体的语法各位读者以自己本地的es版本为准

一、Mapping简介

Mapping类似于数据库中的表结构定义,我们可以通过它来定义Index下的字段名(Field Name )、定义字段的类型,比如数值型、字符串型、布尔型等、定义倒排索引相关的配置,比如是否索引、记录position等

PUT /mapping_index
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text"
      },
      "age": {
        "type": "integer"
      }
    }
  }
}
Mapping入门

二、自定义Mapping的API介绍

(一)Dynamic 新增字段严格性

Mappings的API介绍如下:


Mappings的API介绍

Mapping 中的字段类型一旦设定后,禁止直接修改,因为Lucene实现的倒排索引生成后不允许修改。原因也很好理解,如果可以随意更改字段类型的话,会影响倒排索引的使用,试想一下,如果一个字段原先是text类型,如果变更成keyword类型的话,原先已有的倒排索引就要重新reindex后才能继续使用。

但是ES允许我们对已有的索引进行新增字段的操作,具体的实现方式是通过dynamic参数来定义的。

dynamic-value 含义
true(默认) 允许自动新增字段
false 不允许自动新增字段,但是文档可以正常写入,但无法对字段进行查询等操作
strict 文档不能写入,报错
新增不存在的文档字段
通过hobby字段进行查询
dynamic定义为严格模式
(二)copy_to 字段复制

copy_to 可以将该字段的值复制到目标字段,实现类似于_all的作用


PUT /mapping_index
{
  "mappings": {
    "properties": {
      "lastname": {
        "type": "text",
        "copy_to": "fullname"
      },
      "firstname": {
        "type": "text",
        "copy_to": "fullname"
      },
      "fullname": {
        "type": "text"
      }
    }
  }
}

PUT /mapping_index/_doc/1
{
  "firstname": "xiaoming",
  "lastname": "huang"
}

GET /mapping_index/_search
copy_to案例

使用copy_to的字段来作为检索条件
(三)index 控制字段是否可以索引

index控制当前字段是否索引,默认为true,即记录索引,false 不记录,即不可搜索

index测试案例

那么我们一般可以在什么场景使用index呢?
当ES的索引中存在某些证件号等敏感信息我们不希望被用作索引条件的时候,我们就可以将这个字段的index属性设为false。同时该字段不作为倒排索引,会节省磁盘和内存空间

(四)index_options

index_options控制倒排索引记录的内容,一共有4种配置可选。

index_options-value 含义
doc 只记录文档id(doc id
freqs 记录doc idterm frequences
positions doc idterm frequencesterm position
offsets doc idterm frequencesterm positioncharacter offsets

文本类型text默认的配置是positions,其他默认是docs。需要注意的是,虽然index_options提供了offsets这种内容较多的配置级别,但是记录的内容越多,占用的空间也会越多,在实际操作中还是要根据实际情况进行配置。

PUT /mapping_index
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        "index_options": "offsets"
      }
    }
  }
}
index_options测试案例
(五)Null_Value

null_value是当字段遇到null值时的处理策略,默认为null,即空值,此时es 会忽略该值。可以通过设定该值设定字段的默认值


null_value测试样例1
null_value测试样例2

三、Mapping数据类型

Mapping中给存储的数据提供了字段类型来描述字段的属性(这部分比较简单,就不进行演示了~)

(一)核心数据类型
类型 可选项
字符串型 text、keyword
数值型 tong、integer、short、byte.double、float、half_float、scaled_float
日期类型 date
布尔类型 boolean
二进制类型 binary
范围类型 integer_range、float_range、long_range、double_range、date_range
(二)复杂数据类型
类型 可选项
数组类型 array
对象类型 object
嵌套类型 nested object
(三)地理位置数据类型
类型 可选项
经纬度查询 geo_point
对象类型 object
地理形状查询 geo_shape
(四)专用类型
类型 可选项
实现自动补全 completion
记录分词数 token_count
记录字符串 hash值 murmur3
(五)多字段特性:multi-fields

ES允许对同一个字段采用不同的配置,比如分词,常见例子如对人名实现拼音搜索,我们当然可以在索引中新增一个字段,单独用于做人名的拼音,但是这样拼音和人名就相互独立开来了,缺少了关联性,也不够优雅。通过Multi-Fields,我们只需要在人名中新增一个子字段为pinyin即可.

PUT /mapping_index
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text",
        "fields": {
          "pinyin": {
            "type": "text",
            "analyzer": "pinyin"
          }
        }
      }
    }
  }
}
# 上面的拼音analyzer需要自己定义下
GET /mapping_index1/_search
{
  "query": {
    "match": {
      "username.pinyin": "xiaoming"
    }
  }
}

四、Dynamic Mapping 动态映射模板定义

(一)ES的文档字段的自动识别

我们在使用ES的过程中可以发现,哪怕我们在创建文档或者新增索引字段的时候没有声明字段的数据类型,ES还是会帮我们定义好比较符合需要的数据类型。


ES默认给我们定义的文档数据对应的数据类型

那么ES是通过什么规则来进行定义的呢?
答案是ES是依靠JSON文档的字段类型来实现自动识别字段类型的,支持的类型如下:

JSON类型 ES数据类型
null 忽略
boolean boolean
浮点类型 float
整数 long
object object
array 由第一个非null值的类型决定
string 配为日期则设为date类型(默认开启);匹配为数字的话设为float或 long类型(默认关闭)设为text类型,并附带keyword的子字段
PUT /mapping_index/_doc/1
{
  "name": "小明",
  "age": 15,
  "birth": "1994-03-21",
  "married": false,
  "year": "15",
  "tags": ["boy","fashion"],
  "money": 100.3
}
测试ES默认映射
  • 日期和数字的自动识别

ES默认的日期识别格式是:[ "strict_date_optional_time" ,"yyyy/MM/dd HH:mm:ss Zllyyyy/MM/dd z"]
strict_date_optional_time是ISo datetime的格式,完整格式类似下面:
YYYY-MM-DDThh:mm:ssTzD (eg 1997-07-16T19:20:30+01:00)

我们可以通过dynamic_date_formatsdate_detection来实现可以自定义日期类型和关闭日期自动识别的效果

PUT /mapping_index
{
 "mappings": {
   "dynamic_date_formats":  ["MM/dd/yyyy"]
 }
}
PUT /mapping_index/_doc/1
{
  "birth": "04/03/2021"
}
GET /mapping_index/_mapping
测试dynamic_date_formats
测试date_detection
(二)自定义字段映射模板

ElasticSearch允许根据es 自动识别的数据类型、字段名等来动态设定字段类型,可以实现所有字符串类型都默认设定为keyword类型,即默认不分词、所有以long_开头的字段都设定为long类型,即实现指定字符模糊匹配指定数据类型、所有自动匹配为double类型的都设定为float类型等功能。

自定义映射字段的语法格式

匹配规则一般有以下三个参数:

  1. match_mapping_type :匹配ES自动识别的字段类型,比如boolean、long、string等
  2. match,unmatch:匹配的字段名
  3. path_match、path_unpath:匹配的路径
ES默认识别string
PUT /mapping_index
{
  "mappings": {
    "dynamic_templates": [
      {
        "string_as_keywords": {
          "match_mapping_type": "string",
          "mapping": {
            "type": "keyword"
          }
        }
      }
    ]
  }
}
测试match_mapping_type
PUT /mapping_index
{
  "mappings": {
    "dynamic_templates": [
      {
        "string_as_keywords": {
          "match" : "message*",
          "mapping": {
            "type" : "keyword"
          }
        }
      }
    ]
  }
}

PUT /mapping_index/_doc/1
{
  "name": "xiaoming",
  "message": "he is a boy"
}
GET /mapping_index/_mapping
测试match
(三)自定义Mapping的建议

自定义Mapping虽然可以实现定制化开发,但是当索引中需要定义的字段很多时,工作量还是不少。针对这种情况,可以参考下面这种做法:

  1. 不先直接定义文档Mapping映射,而是写入一条文档到es的临时索引中,获取es自动生成的mapping
  2. 根据步骤1得到的mapping基础上,再调整自定义相关配置
  3. 使用步骤2的mapping创建实际所需索引
(四)索引模板

索引模板,英文为Index Template,主要用于在新建索引时自动应用预先设定的配置,简化索引创建的操作步骤。当需要配置的索引自定义映射数量较多,规则相同时,我们就可以考虑将这条索引映射规则抽离成索引模板。需要注意的是,当有多套索引模板存在时,会根据order设置,order大的覆盖小的配置

索引模板的API介绍

PUT /_template/template_1
{
  "index_patterns" : ["te*"],
  "order" : 0,
  "settings" : {
    "number_of_shards" : 1
  },
  "mappings" : {
    "_source" : { "enabled" : false }
  }
}

PUT /_template/template_2
{
  "index_patterns" : ["tes*"],
  "order" : 1,
  "settings" : {
    "number_of_shards" : 1
  },
  "mappings" : {
    "_source" : { "enabled" : true }
  }
}

PUT test_index

GET test_index
索引模板测试

删除和获取索引模板的API如下:

GET _template                 查询所有索引模板
GET _template/模板名称         查询指定的索引模板
DELETE _template/模板名称      删除指定的索引模板

写在最后

关于ES的Mapping映射还有其他知识点,有需要查询Mapping其他属性的读者可以自行查询ES官方文档(这一块不同版本的ES还是略有不同的)。文档地址如下:
https://www.elastic.co/guide/en/elasticsearch/reference/7.x/indices-templates-v1.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容