Elasticsearch7.X为什么移除类型(type)?
什么是类型(type)?
从Elasticsearch的第一个发布版本以来,每一个文档都被存储在一个单独的索引里,并被赋予了一个type,一个映射类型代表着一个被索引的文档或实体的类型,例如,一个twitter索引可能有一个user类型和tweet类型。
每种映射类型都有他自己的字段,所以user类型可能有一个full_name字段,一个user_name字段和一个email字段,而一个tweet类型可能有一个content字段,一个tweet_at字段,和user类型一样一个user_name字段。
每一个文档类型都有一个_type元字段来存储type名称,并且根据URL里指定的类型名称,查询(搜索)被限定在一个或多个类型(type)里:
GET twitter/user,tweet/_search
{
"query": {
"match": {
"user_name": "kimchy"
}
}
}
_type字段用来和文档的_id字段联合生成_uid字段,所以有着相同_id的不同类型的文档可以存在同一个索引里。
类型也用来建立文档间的父子关系,所以question类型的文档可能是anser类型文档的父文档。
为什么类型被移除了?
起初,我们说"索引"和关系数据库的“库”是相似的,“类型”和“表”是对等的。
这是一个不正确的对比,导致了不正确的假设。在关系型数据库里,"表"是相互独立的,一个“表”里的列和另外一个“表”的同名列没有关系,互不影响。但在类型里字段不是这样的。
在一个Elasticsearch索引里,所有不同类型的同名字段内部使用的是同一个lucene字段存储。也就是说,上面例子中,user类型的user_name字段和tweet类型的user_name字段是存储在一个字段里的,两个类型里的user_name必须有一样的字段定义。
这可能导致一些问题,例如你希望同一个索引中"deleted"字段在一个类型里是存储日期值,在另外一个类型里存储布尔值。
最后,在同一个索引中,存储仅有小部分字段相同或者全部字段都不相同的文档,会导致数据稀疏,影响Lucene有效压缩数据的能力。
因为这些原因,我们决定从Elasticsearch中移除类型的概念。
es6时,官方就提到了es7会删除type,并且es6时已经规定每一个index只能有一个type。
在es7中使用默认的_doc作为type,官方说在8.x版本会彻底移除type。
api请求方式也发送变化,对索引的文档进行操作的时候,默认使用的Type是 _doc 如获得某索引的某id的文档:GET index/_doc/id其中index和id为具体的值
7.X 版本主要新特性:
1) ES 数据库的存储结构变化,去除了Type, 默认的_doc作为type。
2) 默认配置变化:默认节点名称为主机名,默认分片数为1,不再是5。
3)彻底废除 _all 字段的支持,为提升性能默认不在支持全文检索。
4)自带jdk,所以在安装ES时不再需要单独下载和配置JAVA_HOME。
5)新增应用程序主动检测功能,搭配对应版本的kibana,用户可监测应用服务的健康状态,并在出现问题后及时发出通知。
6)时间戳纳秒级支持,提升数据精度。
7)不会再有OOM(内存溢出)的情况,JVM引入了新的circuit breaker(熔断)机制,当查询或聚合的数据量超过单机处理的最大内存限制时会被截断,并抛出异常。
es5/es6:
curl -X GET http://127.0.0.1:9200/indexName/doc/_search?pretty -H 'content-type: application/json' -d '{ "size": 1, "query": {"match_all": {}}}'
es7:
$ curl -X GET --user username:passport http://127.0.0.1:9211/indexName/_search?pretty -H 'content-type: application/json' -d '{ "size": 1, "query": {"match_all": {}}}'
{
"took" : 4,
"timed_out" : false,
"_shards" : {
"total" : 20,
"successful" : 20,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 509,
"relation" : "eq"
},
"max_score" : 1.0,
"hits" : [
{
"_index" : "article",
"_type" : "_doc",
"_id" : "0edcf8bc-b872-4a77-921a-bdb53ebae71e",
"_score" : 1.0,
"_source" : {
"Name" : "你好",
"eid" : "4148563",
"publishTime" : "2021-09-30 08:15",
"createTime" : 1632961442834,
"appId" : "10674",
"articleId" : "0edcf8bc-b872-4a77-921a-bdb53ebae71e",
"pid" : "XT-4c2cebb3-cfdd-40a9-ad44-6b00c5da6343",
"id" : "0edcf8bc-b872-4a77-921a-bdb53ebae71e",
"title" : "你好,世界!",
"ArticleUrl" : "https://www.example.com/front/article?id=0edcf8bc-b872-4a77-921a-bdb53ebae71e",
"introduction" : "",
"content" : "<p><span style=\"color: rgb(29, 29, 29); font-family: "Microsoft YaHei"; font-size: 24px; white-space: pre-wrap; background-color: rgb(255, 255, 255);\">你好,世界!</span></p>"
}
}
]
}
}
参考
从底层存储结构带你分析Elasticsearch7.x为什么把type给干掉了?
https://blog.51cto.com/u_12132623/3027241
Elasticsearch各版本特性总结及7.X增删改查实战
https://huaweicloud.csdn.net/633568c1d3efff3090b560dc.html
Elasticsearch 7.0 正式发布,盘他
https://mp.weixin.qq.com/s/EJQilAy4pLS3fAqBgYZhDA
Elasticsearch发展史
https://www.cnblogs.com/wangzhen3798/p/10751516.html
Elasticsearch移除类型(type)的时间表
https://www.cnblogs.com/wangzhen3798/p/10768181.html