单节点压力

早期我使用的是 Prometheus + Grafana 这一套经典的监控系统，部署便利，配置简单且有独立风格 PromQL 查询语句。

随着时间的推移，在保存一年监控数据的情况下：

max_over_time(prometheus_tsdb_head_series[1d]) = 17M ，在内存计算器预估内存使用是 60G，然而实际使用在 80G 以上。
Wal 文件夹达到 60GB 大小，重启等待 replay 需要 20 分钟才能恢复监控。

尝试使用 --storage.tsdb.wal-compression 参数压缩 wal 文件，但将 wal 文件夹大小缩小到 40GB，重启时间并无显著加快。

考虑方案

该方案吃力不讨好！！！

image

组件划分：
- Vmagent, vmselect, vminsert, vmstorage ......
支持 Remote_write，但不支持 Remote_read
基于 PromQL 独家实现的 VMQL
可使用 prometheus-operator crd，用 vmagent, vmrule, vmalert 将 proemtheus 的采集和报警也替换，彻底告别 prometheus

一个 WebUI 都不提供，我怀疑他们招不起前端！Grafana 的 explore 查询入口没有 prometheus 的好用，而且 targets 和 rules 展示节点和报警实在是太方便了。

image

组件划分：
- Sidecar, Query, Store Gateway, Compact, Ruler
Thanos 管理的最小单位是 tsdb 的本地 block，每 2 小时 Prometheus 会生成一个 block 文件，Thanos Sidecar 负责将其上传到存储端。
最近 2h 的数据存储于 prometheus，2h 以前的数据存储于 thanos。

Prometheus 2h 才打包一次块并上传，只使用本地文件系统的话，节点损坏会损失最多 2h 数据。因此，紧急换节点重启服务失效的数据时长还是比较难接受的
Prometheus 有 remote_write，为什么要提供一个 sidecar？使用 remote_write 的话，query 只需要请求 store gateway
Compactor 是独立组件，个人觉得放在 storage-gateway 一起就行了
这种结构导致了相同的文件块会在组件间传输多次

尝试搭建了 Thanos 和 Victoria，发现 Thanos 架构导致部分数据在各组件之间存在不必要的重复传输，所以选择了更轻量的 Victoria。