前言
我们知道,我们是在
ElasticSearch
(简称ES)上创建索引文档后,哪怕我们之前没有指定字段的类型,但ES还是会给我们的文档数据给予相对应的字段属性,这背后是什么原理呢?同时,ES中又提供了哪些常见的数据类型给我们使用呢?是否可以自定义Mapping
模板来方便自己使用呢?本篇文章将围绕ES的Mapping
配置来对上面的问题进行一一解答,希望可以对这方面不熟悉的读者一个参考。
注意:文章中的演示版本为Elastic Search7.6.1
,具体的语法各位读者以自己本地的es版本为准
一、Mapping简介
Mapping类似于数据库中的表结构定义,我们可以通过它来定义Index下的字段名(Field Name )、定义字段的类型,比如数值型、字符串型、布尔型等、定义倒排索引相关的配置,比如是否索引、记录position等
PUT /mapping_index
{
"mappings": {
"properties": {
"name": {
"type": "text"
},
"age": {
"type": "integer"
}
}
}
}
二、自定义Mapping的API介绍
(一)Dynamic 新增字段严格性
Mappings的API介绍如下:
Mapping 中的字段类型一旦设定后,禁止直接修改,因为Lucene实现的倒排索引生成后不允许修改。原因也很好理解,如果可以随意更改字段类型的话,会影响倒排索引的使用,试想一下,如果一个字段原先是text类型,如果变更成keyword类型的话,原先已有的倒排索引就要重新reindex后才能继续使用。
但是ES允许我们对已有的索引进行新增字段的操作,具体的实现方式是通过dynamic
参数来定义的。
dynamic-value | 含义 |
---|---|
true(默认) | 允许自动新增字段 |
false | 不允许自动新增字段,但是文档可以正常写入,但无法对字段进行查询等操作 |
strict | 文档不能写入,报错 |
(二)copy_to 字段复制
copy_to 可以将该字段的值复制到目标字段,实现类似于_all的作用
PUT /mapping_index
{
"mappings": {
"properties": {
"lastname": {
"type": "text",
"copy_to": "fullname"
},
"firstname": {
"type": "text",
"copy_to": "fullname"
},
"fullname": {
"type": "text"
}
}
}
}
PUT /mapping_index/_doc/1
{
"firstname": "xiaoming",
"lastname": "huang"
}
GET /mapping_index/_search
(三)index 控制字段是否可以索引
index
控制当前字段是否索引,默认为true,即记录索引,false 不记录,即不可搜索
那么我们一般可以在什么场景使用index呢?
当ES的索引中存在某些证件号等敏感信息我们不希望被用作索引条件的时候,我们就可以将这个字段的index
属性设为false。同时该字段不作为倒排索引,会节省磁盘和内存空间
(四)index_options
index_options
控制倒排索引记录的内容,一共有4种配置可选。
index_options-value | 含义 |
---|---|
doc | 只记录文档id(doc id ) |
freqs | 记录doc id 和term frequences
|
positions |
doc id 、term frequences 、term position
|
offsets |
doc id 、term frequences 、term position 、character offsets
|
文本类型text
默认的配置是positions
,其他默认是docs。需要注意的是,虽然index_options提供了offsets这种内容较多的配置级别,但是记录的内容越多,占用的空间也会越多,在实际操作中还是要根据实际情况进行配置。
PUT /mapping_index
{
"mappings": {
"properties": {
"name": {
"type": "text",
"index_options": "offsets"
}
}
}
}
(五)Null_Value
null_value是当字段遇到null值时的处理策略,默认为null,即空值,此时es 会忽略该值。可以通过设定该值设定字段的默认值
三、Mapping数据类型
Mapping中给存储的数据提供了字段类型来描述字段的属性(这部分比较简单,就不进行演示了~)
(一)核心数据类型
类型 | 可选项 |
---|---|
字符串型 | text、keyword |
数值型 | tong、integer、short、byte.double、float、half_float、scaled_float |
日期类型 | date |
布尔类型 | boolean |
二进制类型 | binary |
范围类型 | integer_range、float_range、long_range、double_range、date_range |
(二)复杂数据类型
类型 | 可选项 |
---|---|
数组类型 | array |
对象类型 | object |
嵌套类型 | nested object |
(三)地理位置数据类型
类型 | 可选项 |
---|---|
经纬度查询 | geo_point |
对象类型 | object |
地理形状查询 | geo_shape |
(四)专用类型
类型 | 可选项 |
---|---|
实现自动补全 | completion |
记录分词数 | token_count |
记录字符串 hash值 | murmur3 |
(五)多字段特性:multi-fields
ES允许对同一个字段采用不同的配置,比如分词,常见例子如对人名实现拼音搜索,我们当然可以在索引中新增一个字段,单独用于做人名的拼音,但是这样拼音和人名就相互独立开来了,缺少了关联性,也不够优雅。通过Multi-Fields
,我们只需要在人名中新增一个子字段为pinyin即可.
PUT /mapping_index
{
"mappings": {
"properties": {
"name": {
"type": "text",
"fields": {
"pinyin": {
"type": "text",
"analyzer": "pinyin"
}
}
}
}
}
}
# 上面的拼音analyzer需要自己定义下
GET /mapping_index1/_search
{
"query": {
"match": {
"username.pinyin": "xiaoming"
}
}
}
四、Dynamic Mapping 动态映射模板定义
(一)ES的文档字段的自动识别
我们在使用ES的过程中可以发现,哪怕我们在创建文档或者新增索引字段的时候没有声明字段的数据类型,ES还是会帮我们定义好比较符合需要的数据类型。
那么ES是通过什么规则来进行定义的呢?
答案是ES是依靠JSON文档的字段类型来实现自动识别字段类型的,支持的类型如下:
JSON类型 | ES数据类型 |
---|---|
null | 忽略 |
boolean | boolean |
浮点类型 | float |
整数 | long |
object | object |
array | 由第一个非null值的类型决定 |
string | 配为日期则设为date类型(默认开启);匹配为数字的话设为float或 long类型(默认关闭)设为text类型,并附带keyword的子字段 |
PUT /mapping_index/_doc/1
{
"name": "小明",
"age": 15,
"birth": "1994-03-21",
"married": false,
"year": "15",
"tags": ["boy","fashion"],
"money": 100.3
}
- 日期和数字的自动识别
ES默认的日期识别格式是:[ "strict_date_optional_time" ,"yyyy/MM/dd HH:mm:ss Zllyyyy/MM/dd z"]
strict_date_optional_time是ISo datetime的格式,完整格式类似下面:
YYYY-MM-DDThh:mm:ssTzD (eg 1997-07-16T19:20:30+01:00)
我们可以通过dynamic_date_formats
和date_detection
来实现可以自定义日期类型和关闭日期自动识别的效果
PUT /mapping_index
{
"mappings": {
"dynamic_date_formats": ["MM/dd/yyyy"]
}
}
PUT /mapping_index/_doc/1
{
"birth": "04/03/2021"
}
GET /mapping_index/_mapping
(二)自定义字段映射模板
ElasticSearch
允许根据es 自动识别的数据类型、字段名等来动态设定字段类型,可以实现所有字符串类型都默认设定为keyword类型,即默认不分词、所有以long_开头的字段都设定为long类型,即实现指定字符模糊匹配指定数据类型、所有自动匹配为double类型的都设定为float类型等功能。
匹配规则一般有以下三个参数:
- match_mapping_type :匹配ES自动识别的字段类型,比如boolean、long、string等
- match,unmatch:匹配的字段名
- path_match、path_unpath:匹配的路径
PUT /mapping_index
{
"mappings": {
"dynamic_templates": [
{
"string_as_keywords": {
"match_mapping_type": "string",
"mapping": {
"type": "keyword"
}
}
}
]
}
}
PUT /mapping_index
{
"mappings": {
"dynamic_templates": [
{
"string_as_keywords": {
"match" : "message*",
"mapping": {
"type" : "keyword"
}
}
}
]
}
}
PUT /mapping_index/_doc/1
{
"name": "xiaoming",
"message": "he is a boy"
}
GET /mapping_index/_mapping
(三)自定义Mapping的建议
自定义Mapping虽然可以实现定制化开发,但是当索引中需要定义的字段很多时,工作量还是不少。针对这种情况,可以参考下面这种做法:
- 不先直接定义文档Mapping映射,而是写入一条文档到es的临时索引中,获取es自动生成的mapping
- 根据步骤1得到的mapping基础上,再调整自定义相关配置
- 使用步骤2的mapping创建实际所需索引
(四)索引模板
索引模板,英文为Index Template,主要用于在新建索引时自动应用预先设定的配置,简化索引创建的操作步骤。当需要配置的索引自定义映射数量较多,规则相同时,我们就可以考虑将这条索引映射规则抽离成索引模板。需要注意的是,当有多套索引模板存在时,会根据order设置,order大的覆盖小的配置。
PUT /_template/template_1
{
"index_patterns" : ["te*"],
"order" : 0,
"settings" : {
"number_of_shards" : 1
},
"mappings" : {
"_source" : { "enabled" : false }
}
}
PUT /_template/template_2
{
"index_patterns" : ["tes*"],
"order" : 1,
"settings" : {
"number_of_shards" : 1
},
"mappings" : {
"_source" : { "enabled" : true }
}
}
PUT test_index
GET test_index
删除和获取索引模板的API如下:
GET _template 查询所有索引模板
GET _template/模板名称 查询指定的索引模板
DELETE _template/模板名称 删除指定的索引模板
写在最后
关于ES的Mapping映射还有其他知识点,有需要查询Mapping其他属性的读者可以自行查询ES官方文档(这一块不同版本的ES还是略有不同的)。文档地址如下:
https://www.elastic.co/guide/en/elasticsearch/reference/7.x/indices-templates-v1.html