2019-05-29 ES存储数据量优化

386个标准csv文件，9列，912M，6839927行，

如果是默认index的配置进入es，即5个shards，1个replica，那么占用 3.2G的空间。

那么，通过下面的方式，设置0个replica，1个shard

PUT _template/<template_name>
{
  "index_patterns": "*",
  "settings" : {
    "number_of_replicas" : 0,
    "number_of_shards" : 1
  },
  "version"  : 1
}

然后，再在 grok 解析那里，把原始的message舍去（如果不需要全文索引的话）。那么最后占用空间是1.6G。在kibana上 GET _cat/indices?v 展示的是 1gb
在导入的过程中可以发现，这个占用空间会增长到 2.3G 甚至更多。然后回落、再涨、再回落。
这里是有一个数据压缩的过程，下次再仔细介绍。

大约8分30秒，这684w的数据进入es。平均速度是 13411 TPS。
使用的是一个虚拟机，16G 内存，600G SATA，4核，Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz。给ES开的内存是

-Xms1g
-Xmx1g

曾经一个正儿八经的3实体机集群，SATA盘，从kafka接数据，可以达到25w TPS。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

2019-05-29 ES存储数据量优化

2019-05-29 ES存储数据量优化

相关阅读更多精彩内容

友情链接更多精彩内容