对于 TiKV 来说,我们使用的是 Prometheus 来收集系统所有的 metrics,在加上 Grafana,几乎已经成为了业界的一个标准的解决方案。但是,Prometheus 是一个时序数据库,它的数据类型的值也是浮点类型,所以有时候,我们并不能很好的去展示一些更复杂的统计信息。
譬如下图的 PD 面板的统计,上面详细的列出来当前集群有多少台 TiKV,以及异常的 TiKV 的个数,但仅仅只能限于此了,如果这时候,我想知道 Tomestone 的 TiKV 具体是那几台机器,就很难做到了。
一个可选的做法就是使用 Prometheus 的 label,譬如对于 PD 的配置来说,我们也需要在 Grafana 上面展示,现在就是用了一个 Gauge,添加了一个 type 的 label,这样配置的 field 就放到这个 type 里面,而配置的值就是 Gauge 的值。大概如下:
虽然能看到当前集群的一些配置了,但如果这个配置是 string 或者 list 等类型,仍然是没法展示的。另外,如果用 label,可能造成 label 值太多,metrics 膨胀,Prometheus 撑不住的情况。
当然,我们可以通过另外的方式得到这些信息,譬如现在我们就可以直接通过 HTTP 或者相关的 control 工具直接从 PD 或者 TiKV 里面得到,只不过,多数时候,在用户那边,我们是没法直接操作这些命令的。通常,用户只会给我们开放 Grafana 面板,所以,如果我们能在 Grafana 展示更加丰富的信息,就更利于我们后面排查问题。
对于上面我提到的那种情况,多数时候,我们其实希望的是用 table 来进行展示,譬如:
Instance | State |
---|---|
172.16.1.3 | Up |
172.16.1.4 | Tombstone |
幸运的是,Grafana 也提供了 table 的支持,也能支持 string 这样的数据展示,所以我们要做的就很简单了。为 TiKV 在 Grafana 里面专门写一个 datasource,能返回 Table 的数据格式,这样就能在 Grafana 里面展示了。
Datasource
Grafana 提供了一个非常简单的例子,开发一个 JSON datasource - https://github.com/grafana/simple-json-datasource,在这个例子里面,我们只要给这个 datasource 写一个特定的 server,返回 Table 格式的数据,就 ok 了。
Simple JSON datasource 这个例子里面已经提供了几个 server 实现,因为我对 Go 很熟悉,自然选择了 https://github.com/smcquay/jsonds,但这个实现其实并不支持返回 Table,不过也是很简单的。
jsonds
首先,我们知道 Table 的请求格式为:
{
"panelId": 1,
"range": {
"from": "2016-10-31T06:33:44.866Z",
"to": "2016-10-31T12:33:44.866Z",
"raw": {
"from": "now-6h",
"to": "now"
}
},
"rangeRaw": {
"from": "now-6h",
"to": "now"
},
"interval": "30s",
"intervalMs": 30000,
"targets": [
{ "target": "upper_50", "refId": "A", "type": "table" },
{ "target": "upper_75", "refId": "B", "type": "table" }
],
"adhocFilters": [{
"key": "City",
"operator": "=",
"value": "Berlin"
}],
"format": "json",
"maxDataPoints": 550
}
返回格式为:
[
{
"columns":[
{"text":"Time","type":"time"},
{"text":"Country","type":"string"},
{"text":"Number","type":"number"}
],
"rows":[
[1234567,"SE",123],
[1234567,"DE",231],
[1234567,"US",321]
],
"type":"table"
}
]
这些都是放在 HTTP body 里面了,我们很自然的能在 Go 里面定义好对应的 struct 来进行编解码处理:
type QueryRequest struct {
PanelID int `json:"panelId"`
Range Range `json:"range"`
RangeRaw RangeRaw `json:"rangeRaw"`
Interval string `json:"interval"`
IntervalMS int `json:"intervalMs"`
Targets []Target `json:"targets"`
Format string `json:"json"`
AdHocFilters []map[string]string `json:"adhocFilters"`
MaxDataPoints int `json:"maxDataPoints"`
}
type Column struct {
Text string `json:"text"`
Type string `json:"type"`
}
type TableResponse struct {
Columns []Column `json:"columns"`
Rows [][]interface{} `json:"rows"`
Type string `json:"type"`
}
注意,因为有些 struct 过于简单,这里并没有写上去。然后我们增加个处理 /query
请求的 handler,如下:
func (s *server) query(w http.ResponseWriter, r *http.Request) {
log.Printf("%v: %v", r.URL.Path, r.Method)
switch r.Method {
case http.MethodOptions:
case http.MethodPost:
req := QueryRequest{}
if err := json.NewDecoder(r.Body).Decode(&req); err != nil {
http.Error(w, fmt.Sprintf("json decode failure: %v", err), http.StatusBadRequest)
return
}
resp := TableResponse{
Columns: []Column{
{Text: "ID", Type: "number"},
{Text: "Addr", Type: "string"},
{Text: "State", Type: "string"},
{Text: "Leader", Type: "number"},
{Text: "Region", Type: "number"},
},
Rows: [][]interface{}{
{1, "127.0.0.1:20161", "Up", 1, 1},
{2, "127.0.0.1:20162", "Up", 0, 1},
{3, "127.0.0.1:20163", "Up", 0, 1},
},
Type: "table",
}
if err := json.NewEncoder(w).Encode([]TableResponse{resp}); err != nil {
log.Printf("json enc: %+v", err)
}
default:
http.Error(w, "bad method; supported OPTIONS, POST", http.StatusBadRequest)
return
}
}
代码几乎就是按照 jsonds 其他代码 copy 的,这里,我们返回了一个 Table,存储的是 TiKV 集群的信息,然后编译启动。
Demo
然后我们打开 Grafana,按照提示安装好 JSON datasource,创建一个 Table 的 panel,在 Options 那边需要选择 Table。
另外,为了显示更友好,可以在 Column Styles 里面将 Decimals 那一栏设置为 0。
然后我们就能看到整个效果了,如下:
总结
可以看到,通过自己构造 datasource,我们能在 Grafana 里面展示更复杂的数据了。上面的 demo 只是一个简单的例子,我们完全可以让 datasource 直接通过 HTTP 跟 PD,TiKV 进行交互,得到相关的数据进行展示。而对于 TiDB,虽然也支持 HTTP,但我更希望的是能通过 SQL 直接进行交互,幸运的是,Grafana 早就支持了 MySQL 的 datasource,有空就后面研究吧。
说了这么多,提最重要的吧,我虽然喜欢折腾,但也仅仅是这样了,对前端还是一窍不通的,所以,这里非常期待前端工程师的加入。我们不光会在 Grafana 上折腾,同时也会开发自己的 Web 产品,如果你在这方面有丰富的经验,欢迎联系我 tl@pingcap.com。