【elasticsearch】9、Mapping

什么是mapping

  • mapping类似数据库中的scheme定义,作用如下
    • 定义索引中的字段名称
    • 定义字段的数据类型,例如:字符串,数字,布尔等
    • 字段,倒排索引的相关配置,analyzed or not analyzed,analyzer
  • mapping会把json文档映射成lucene所属要的扁平格式
  • 一个mapping属于一个索引的type
    • 每个文档都属于一个type
    • 一个type有一个mapping定义
    • 7.0开始,不需要在mapping定义中指定type的信息

字段的数据类型

  • 简单类型
    • text / keyword
    • date
    • integer / floating
    • boolean
    • ipv4 / ipv6
  • 复杂类型 - 对象类型和嵌套类型
    • 对象类型 / 嵌套类型
  • 特殊类型
    • geo_point & geo_shape / percolator

什么是dynamic mapping

  • 在写入文档的时候,如果索引不存在,会自动创建索引
  • dynamic mapping的机制,使得我们无需手动定义mappings,elasticsearch会自动根据文档信息,推算出字段的类型
  • 但是有时候推算的会不对,例如地理位置信息
  • 当类型如果设置不对的时候,会导致一些功能无法正常运行,例如range查询
mappings

类型的自动识别 dynamic mapping

json类型 elasticsearch类型
字符串 1、匹配日期格式,设置成Date
2、匹配数字设置为float或者long,改选项默认关闭
3、设置为text,并且增加keyword子字段
布尔值 boolean
浮点数 float
整数 long
对象 Object
数组 由第一个非空数值的类型锁决定
空值 忽略

能否更改mapping的字段类型

  • 两种情况
    • 新增加字段
      • dynamic设为true时,一旦有邢增字段的文档写入,mapping也同时被更新
      • dynamic设置为false,mapping不会被更新,新增字段的数据无法被索引,但是信息会出现在_source中
      • dynamic设置为strict,文档写入失败
    • 对已有的字段,一旦已经有数据写入,就不再支持修改字段定义
      • lucene实现的倒排索引,一旦生成后,就不允许修改
    • 如果希望改变字段类型,必须使用reindex api,重建索引
  • 原因
    • 如果修改了字段的数据类型,会导致已被索引的索引无法被搜索
    • 但是如果是增加新的字段,则不会有这样的影响

控制dynamic mapping

状态 "true" "false" "strict"
文档可索引 YES YES NO
字段可索引 YES NO NO
mapping被更新 YES NO NO
dynamic - false
  • 当gynamic被设置成false的时候,存在新增字段的数据写入,该数据可以被索引,但是新增字段被丢弃
  • 当设置成strict模式的时候,数据直接写入出错

示例

#写入文档,查看 Mapping
PUT mapping_test/_doc/1
{
  "firstName":"Chan",
  "lastName": "Jackie",
  "loginDate":"2018-07-24T10:29:48.103Z"
}

#查看 Mapping文件
GET mapping_test/_mapping


#Delete index
DELETE mapping_test

#dynamic mapping,推断字段的类型
PUT mapping_test/_doc/1
{
    "uid" : "123",
    "isVip" : false,
    "isAdmin": "true",
    "age":19,
    "heigh":180
}

#查看 Dynamic
GET mapping_test/_mapping


#默认Mapping支持dynamic,写入的文档中加入新的字段
PUT dynamic_mapping_test/_doc/1
{
  "newField":"someValue"
}

#该字段可以被搜索,数据也在_source中出现
POST dynamic_mapping_test/_search
{
  "query":{
    "match":{
      "newField":"someValue"
    }
  }
}


#修改为dynamic false
PUT dynamic_mapping_test/_mapping
{
  "dynamic": false
}

#新增 anotherField
PUT dynamic_mapping_test/_doc/10
{
  "anotherField":"someValue"
}


#该字段不可以被搜索,因为dynamic已经被设置为false
POST dynamic_mapping_test/_search
{
  "query":{
    "match":{
      "anotherField":"someValue"
    }
  }
}

get dynamic_mapping_test/_doc/10

#修改为strict
PUT dynamic_mapping_test/_mapping
{
  "dynamic": "strict"
}



#写入数据出错,HTTP Code 400
PUT dynamic_mapping_test/_doc/12
{
  "lastField":"value"
}

DELETE dynamic_mapping_test

显式mapping - 如何显示定义一个mapping

显示定义mapping

自定义mapping的一些建议

  • 可以参考api手册,纯手写
  • 为了减少输入的工作量,减少出错概率,可以依照以下步骤
    • 创建一个临时的index,写入一些样本数据
    • 通过访问mapping api获得该临时文件的动态mapping定义
    • 修改获取的动态mapping定义,使用该配置创建你的索引
    • 删除临时索引

控制当前字段是否被索引

index options

index options
  • 四种不同级别的index options 配置,可以控制倒排索引记录的内容
    • docs - 记录doc id
    • freqs - 记录doc id和term frequencies
    • positions - 记录doc id /term frequencies / term position
    • offsets - doc id / term frequencies / term position / character offsets
  • text类型默认记录positions,其他默认为docs
  • 记录内容越多,占用存储空间越大

null value

  • 需要对null值实现搜索
  • 只有keyword类型支持设定null_value


    null value

copy to设置

  • _all在7中被copy_to所替代
  • 满足一些特定的搜索需求
  • copy_to将字段的数值拷贝到目标字段,实现类似_all的作用
  • copy_to的目标字段不出现在_source中
copy to设置
  • 数组类型
  • elasticsearch中不提供专门的数组类型,但是任何字段,都可以包含多个相同类型的数值


    数组类型
#设置 index 为 false
DELETE users
PUT users
{
    "mappings" : {
      "properties" : {
        "firstName" : {
          "type" : "text"
        },
        "lastName" : {
          "type" : "text"
        },
        "mobile" : {
          "type" : "text",
          "index": false
        }
      }
    }
}

PUT users/_doc/1
{
  "firstName":"Ruan",
  "lastName": "Yiming",
  "mobile": "12345678"
}

POST /users/_search
{
  "query": {
    "match": {
      "mobile":"12345678"
    }
  }
}




#设定Null_value

DELETE users
PUT users
{
    "mappings" : {
      "properties" : {
        "firstName" : {
          "type" : "text"
        },
        "lastName" : {
          "type" : "text"
        },
        "mobile" : {
          "type" : "keyword",
          "null_value": "NULL"
        }

      }
    }
}

PUT users

多字段类型

  • 多字段特性
    • 厂商名字实现精确匹配
      • 增加一个keyword字段
  • 使用不同的analyzer
    • 不同语言
    • pinyin字段的检索
    • 还支持为搜索和索引指定不同的analyzer


      多字段类型

exact values vs full text (精确值和全文本)

  • Exact values vs full text
    • exact value:包括数字 / 日期 / 具体一个字符串(例如“apple store”)
      • elasticsearch中的keyword
  • 全文本,非结构化的文本数据
    • elasticsearch中的text

![exact values vs full text(https://upload-images.jianshu.io/upload_images/2486135-b79624be41113b24.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

exact values 不需要被分词

  • elasticsearch为每一个字段创建一个倒排索引
    • exact value在索引时,不需要做特殊的分词处理
exact values

自定义分词

  • 当elasticsearch自带的分词器无法满足时,可以自定义分词器,通过自组合不同的组件实现
    • character filter
    • tokennizer
    • token filter

character filters

  • 在tokenizer之前对文本进行处理,例如增加删除及替换字符。可以配置多个character filters,会影响tokenizer的position和offset信息
  • 一些自带的character filters
    • html strip - 去除html标签
    • mapping - 字符串替换
    • pattern replace - 正则匹配替换

tokenizer

  • 将原始的文本按照一定的规则,切分为词(term or token)
  • elasticsearch内置的tokenizer
    • whitespace / standard / uax_url_email / pattern / keyword / path hierarchy(路径层级)
  • 可以用java开发插件,实现自己的tokenizer

token filters

  • 将tokenizer输出的单词(term),进行增加,修改,删除
  • 自带的token filters
    • lowercase / stop / synonym(添加近义词)

设置一个customer analyzer

customer analyzer
PUT logs/_doc/1
{"level":"DEBUG"}

GET /logs/_mapping

POST _analyze
{
  "tokenizer":"keyword",
  "char_filter":["html_strip"],
  "text": "<b>hello world</b>"
}


POST _analyze
{
  "tokenizer":"path_hierarchy",
  "text":"/user/ymruan/a/b/c/d/e"
}



#使用char filter进行替换
POST _analyze
{
  "tokenizer": "standard",
  "char_filter": [
      {
        "type" : "mapping",
        "mappings" : [ "- => _"]
      }
    ],
  "text": "123-456, I-test! test-990 650-555-1234"
}

//char filter 替换表情符号
POST _analyze
{
  "tokenizer": "standard",
  "char_filter": [
      {
        "type" : "mapping",
        "mappings" : [ ":) => happy", ":( => sad"]
      }
    ],
    "text": ["I am felling :)", "Feeling :( today"]
}

// white space and snowball
GET _analyze
{
  "tokenizer": "whitespace",
  "filter": ["stop","snowball"],
  "text": ["The gilrs in China are playing this game!"]
}


// whitespace与stop
GET _analyze
{
  "tokenizer": "whitespace",
  "filter": ["stop","snowball"],
  "text": ["The rain in Spain falls mainly on the plain."]
}


//remove 加入lowercase后,The被当成 stopword删除
GET _analyze
{
  "tokenizer": "whitespace",
  "filter": ["lowercase","stop","snowball"],
  "text": ["The gilrs in China are playing this game!"]
}

//正则表达式
GET _analyze
{
  "tokenizer": "standard",
  "char_filter": [
      {
        "type" : "pattern_replace",
        "pattern" : "http://(.*)",
        "replacement" : "$1"
      }
    ],
    "text" : "http://www.elastic.co"
}

自定义自己的analyzer 分词器

image.png

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容