关于 metric, tag name 和 tag value
- opentsdb的每个时间序列必须有一个metric和一个或多个(tag name, tag value)对,每个时间序列每小时的数据保存为一行。
- Opentsdb的metric, tag name和tag value各自的UID数量上限为224个,该值可以通过改变源代码重新编译后进行修改,最多可以扩展到8字节,即264个。不建议修改。
- tag name和tag value的UID分配是完全独立的,例如,如果tag value的取值为整数2,那么这个值完全可以被多个tag name所使用,例如cpu=2, interface=2, hdd=2等。
- 在设计系统时应该确保metric, tag name和tag value的可能取值在较小的范围内,因为它们的数量影响到查询速度。
- 注意事项:
a. 减少它们的数量
b. 为每个metric使用同类的tag name
c. 考虑系统常用的查询方式,选择合适的时间序列metric和tag
d. 每个metric的tag数量维持在5个以内,最多不超过8个。 - 存储时间序列数据的时候,每个数据点要包含以下内容:metric,至少一对tag,时间戳(自1970年起的秒或毫秒),一个数值(整数或浮点数)。
- 时间戳:一定是整数,且不超过13位。如果是13位表示毫秒,10位则表示秒。在一个序列中应该采用同样单位的时间戳(都是秒或者都是毫秒),混合不同单位的时间戳会引起查询缓慢,如无必要,应该用秒为单位,降低存储空间的消耗。
- metric和tag的命名规则:大小写敏感,不允许空格,只允许以下字符:字母,数字,减号,下划线,点号,斜杠(/),长度不限,但是尽量短一些。
数据点
- 只能由数字和小数点组成,如果没有小数点,则认为是整数,否则认为是浮点数。整数使用可变长度编码方式,最少1字节,最多8字节。浮点数为4字节单精度浮点数。由于浮点数是单精度类型,因此不支持需要精确值得浮点数,例如15.2会被保存为15.199999809265137
- 写入数据时不必按照时间顺序写入,时间戳在后的数据可以先写入,再写入时间戳在前的数据。
- 数据重复写入的问题:
a. 在同一小时内多次写入相同的数据不会有问题。
b. 如果设置和compaction操作,那么如果前后两次写入的数据类型不同,则在查询时一定会抛出异常。如果两次写入的数据类型相同,那么在该行还没有进行compaction操作之前,前面的数据将被覆盖掉。 - 数据写入方式:数据有三种写入方式:telnet, http post, 用数据文件批量导入。
OpentTSDB 性能优化:
- 每个TSD进程的处理能力大约为每秒几千次写,可以使用多个TSD进程实现更高写入能力,前端采用DNS轮询或Varnish缓存实现负载均衡。当集群专用于opentsdb时,TSD进程可以和HBase的Region server位于同一台机器。
- 可以将TSD进程配置为持久连接,这就可以阻止每次写入数据都经历建立和关闭连接的过程。
- 关闭元数据和实时发布功能,因为它们极大地影响到系统性能。