系统监控之collectd

collectd


简介


collectd是一个守护(daemon)进程,用来定期收集系统和应用程序的性能指标,同时提供了以不同的方式来存储这些指标值的机制。

collectd从各种来源收集指标,例如 操作系统,应用程序,日志文件和外部设备,并存储此信息或通过网络使其可用。 这些统计数据可用于监控系统、查找性能瓶颈(即性能分析)并预测未来的系统负载(即容量规划)等。

优点

  1. 它完全是由C语言编写,故性能很高,可移植性好,它允许运行在系统没有脚本语言支持或者cron daemon的系统上,比如嵌入式系统。同时,它包含优化以及处理成百上千种数据集的新特性。
  2. collectd包含有超过100多种插件。同时,collectd提供强大的网络特性,并且它能以多种方式进行扩充。

缺点

  1. 它本身不能生成图形。虽然它能写RRD文件,但是它不能从这些文件生成图形。
  2. 监控功能只能进行简单的门阀检测。

collectd官方文档地址https://collectd.org/index.shtml

collectd wiki地址https://collectd.org/wiki/index.php/Main_Page


下载、编译、安装


wget https://storage.googleapis.com/collectd-tarballs/collectd-5.7.2.tar.bz2

tar xf collectd-5.7.2.tar.bz2

cd collectd-5.7.2

./configure #编译

也可以在后面加入一些其他可选的选项如:

--prefix=/usr --sysconfdir=/etc -localstatedir=/var --libdir=/usr/lib --mandir=/usr/share/man --enable-all-plugins

make all install #安装

或者

直接执行命令进行安装sudo apt-get install collectd

配置文件目录:/etc/collectd/collectd.conf

启动文件目录:/etc/init.d/collectd

日志文件目录:/var/log/syslog

数据存储目录:/var/lib/collectd/rrd/

若监控集群,则每台服务器都需要下载安装collectd并进行相应的配置。


配置


sudo vim /opt/collectd/etc/collectd.conf

需要监控系统什么项就开启相应的插件,一般有cpu,memory,processes,load,interface,disk,swap等。

一般只需修改network插件这一项:

网络插件可以将数据发送到collectd的远程实例中(例如:数据库,csv文件或缓存等介质中),或者接收从远程服务端发来的数据。

LoadPlugin network       #去掉#就表示载入该插件
<Plugin network>
#       # client setup:
        Server "10.24.106.1" "25826"  #该地址和端口是接收数据的服务器的地址和端口,例如:安装数据库(influxdb等)的服务器的地址和端口
#       <Server "239.192.74.66" "25826"> #若需传输加密数据,就配置这一小块部分
#               SecurityLevel Encrypt
#               Username "user"
#               Password "secret"
#               Interface "eth0"
#               ResolveInterval 14400
#       </Server>
#       TimeToLive 128
#
#       # server setup:
#       Listen "ff18::efc0:4a42" "25826" #如配置这一部分,表示接收从其他collectd实例中发来的数据
#       <Listen "239.192.74.66" "25826">
#               SecurityLevel Sign
#               AuthFile "/etc/collectd/passwd"
#               Interface "eth0"
#       </Listen>
#       MaxPacketSize 1452
#
#       # proxy setup (client and server as above):
#       Forward true
#
#       # statistics about the network plugin itself
#       ReportStats false
#
#       # "garbage collection"
#       CacheFlush 1800
</Plugin>

启动


执行命令sudo /etc/init.d/collectd start

或者 systemctl start collectd

并设置开机启动systemctl enable collectd


查看数据


若开启了rrdtool插件就可在/var/lib/collectd/rrd/目录下看到相应的统计数据。

通过下面命令可以查看具体数据:

rrdtool fetch *.rrd AVERAGE

*.rrd表示任何以.rrd结尾的文件,rrdtool命令更详细的用法可以自行百度。

可以看到第一列为timestamp(时间戳),可以通过命令date -d @timestamp把timestamp(以秒为单位)转换为和date命令显示的相同的的时间格式,命令date +%s用时间戳的形式表示时间。


主要插件介绍


  • Plugin: CPU

可视化显示

cpu
cpu

指标释义

jiffies: 是一个单位,jiffies是内核中的一个全局变量,用来记录自系统启动一来产生的节拍数,在linux中,一个节拍大致可理解为操作系统进程调度的最小时间单位,不同linux内核可能值有不同,通常在1ms到10ms之间

user: 从系统启动开始累计到当前时刻,处于用户态的运行时间,不包含 nice值为负的进程。

nice: 从系统启动开始累计到当前时刻,nice值为负的进程所占用的CPU时间。

idle: 从系统启动开始累计到当前时刻,除I/O等待时间以外的其它等待时间。

wait-io: 从系统启动开始累计到当前时刻,I/O操作等待时间。

system: 从系统启动开始累计到当前时刻,处于内核态的运行时间。

softIRQ: 从系统启动开始累计到当前时刻,软中断时间。

IRQ:从系统启动开始累计到当前时刻,硬中断时间。

steal:运行在虚拟环境中其他操作系统所花费的时间。

  • Plugin: interface

Interface插件收集关于流量(每秒八位字节),每秒的数据包和接口错误(一秒钟内)的信息。

interface
interface

rxpck/s:每秒钟接收的数据包

txpck/s:每秒钟发送的数据包

rxbyt/s:每秒钟接收的字节数

txbyt/s:每秒钟发送的字节数

  • Plugin: processes
processes
processes
  • Plugin: memory 收集系统的物理内存利用率
processes
processes
  • Plugin: swap 收集swap空间的使用情况
swap
swap
  • Plugin: df 统计文件系统的使用信息

  • Plugin: irq 收集操作系统处理中断的数量

  • Plugin: disk 收集磁盘的性能统计信息

  • Plugin: load 收集系统负载信息,定义为队列中可运行任务的数量

在Linux中,系统相关数据可以通过命令cd /proc/在该目录下查看。


自定义插件


python插件将python解释器嵌入到collectd中并且提供了collectd插件系统接口。

插件配置

LoadPlugin python    #默认是关闭的,需要去掉#,载入插件
<Plugin python>
       ModulePath "/path/to/your/python/modules" #可以使用多行ModulePath来导入更多的目录
       LogTraces true  #如果python脚本报错,是否要记录下来。如果设置为true,它将记录下和在python解释器中一样的所有报错。
       Interactive true  #这个选项将使module打开一个python解释器在终端显示读与写。
       Import "spam"     #导入spam这个模块

       <Module spam>
               spam "wonderful" "lovely" #配置该Python模块所需要的参数
       </Module>
</Plugin>

collectd提供了基本的方法用于注册自己插件的配置加载函数、数据读取函数和数据写函数。

函数 描述
collectd.register_config() 该方法实现对模块参数的读取
collectd.register_read() 该方法进行数据的采集
collectd.register_write() 该方法用于对数据的采集进行写处理

以上三个方法的参数中最重要的都是一个回调函数,分别用于读取配置文件、采集监控数据和处理获取的监控数据。

Python模块伪代码

Any Python module will start similar to:
    
    import collectd

A very simple read function might look like:

    def read(data=None):  #定义一个read回调函数
        ```
            实现对指标的数据采集
            collectd有自己的类型,都存储在Types.db中
        ```
        vl = collectd.Values(type='gauge') #gauge是collectd的内建数据类型,也可以在types.db中自定义数据类型
        vl.plugin='python.spam'
        vl.values = [random.random() * 100] 
        vl.dispatch() #发送获取的values,给write插件读取。

A very simple write function might look like:

    def write(vl, data=None): #定义一个write回调函数
        ```
            将获取到的数据按照要求插入自己的数据存储中
            在这里直接打印输出
        ```
        for i in vl.values:
            print "%s (%s): %f" % (vl.plugin, vl.type, i)

To register those functions with collectd:

    collectd.register_read(read)   #注册回调函数read
    collectd.register_write(write)  #注册回调函数write

实例分析


首先在collectd.conf文件中配置Python插件如下:

<Plugin python>  
    ModulePath "/opt/collectd/lib/collectd"  
    Import "cpu_usage_plugin"  
    <Module cpu_usage_plugin>  
        Interval 30  
        PluginName "cpu_usage"  
        HostName "demo_host"  
        Verbose false  
    </Module>  
</Plugin>  

模块cpu_usage_plugin.py内容如下:

#!/usr/bin/env python  

import subprocess  
import traceback  


def get_cpu_usage():  
    cmd = "grep 'cpu ' /proc/stat | awk '{usage=($2+$4)*100/($2+$4+$5)} END {print usage}'"  
    result = run(cmd)  
    for line in result:  
        try:  
            usage = float(line)  
            return usage  
        except:  
            raise Exception("Failed to parse cpu usage")  


def run(cmd):  
    try:  
        result = []  
        proc = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE, close_fds=True)  
        (stdout, stderr) = proc.communicate()  
        output = stdout.split("\n")  
        for line in output:  
            if line == '':  
                continue  
            result.append(line)  
        return result  
    except Exception as err:  
        raise Exception("failed to execute command: %s, reason: %s" % (' '.join(cmd), err.message))  


class CPUStatMon(object):  
    
    def __init__(self):  
        self.plugin_name = "cpu_stat"  
        self.interval = 30  
        self.hostname = None  
        self.verbose_logging = False  

    def log_verbose(self, msg):  
        if not self.verbose_logging:  
            return  
        collectd.info('%s plugin [verbose]: %s' % (self.plugin_name, msg))  



    def configure_callback(self, conf):  
        for node in conf.children:  
            val = str(node.values[0])  
            if node.key == "HostName":  
                self.hostname = val  
            elif node.key == 'Interval':  
                self.interval = int(float(val))  
            elif node.key == 'Verbose':  
                self.verbose_logging = val in ['True', 'true']  
            elif node.key == 'PluginName':  
                self.plugin_name = val  
            else:  
                collectd.warning('[plugin] %s: unknown config key: %s' % (self.plugin_name, node.key))  

    def dispatch_value(self, plugin, host, type, type_instance, value):  
        self.log_verbose("Dispatching value plugin=%s, host=%s, type=%s, type_instance=%s, value=%s" %(plugin, host, type, type_instance, str(value)))  
        val = collectd.Values(type=type)  
        val.plugin = plugin  
        val.host = host  
        val.type_instance = type_instance  
        val.interval = self.interval  
        val.values = [value]  
        val.dispatch()  
        self.log_verbose("Dispatched value plugin=%s, host=%s, type=%s, type_instance=%s, value=%s" %(plugin, host, type, type_instance, str(value)))  

    def read_callback(self):  
        try:  
            usage = get_cpu_usage()  
            type = 'cpu_usage_percent'  
            type_instance = "used"  
            value = usage  
            self.dispatch_value(self.plugin_name, self.hostname, type, type_instance, value)  

        except Exception as exp:  
            self.log_verbose(traceback.print_exc())  
            self.log_verbose("plugin %s run into exception" % (self.plugin_name))  
            self.log_verbose(exp.message)  
    
    def write_callback(self,val):
        
        pass #可以把数据写进数据库或文件中。

if __name__ == '__main__':  
    result = get_cpu_usage()  
    print result  

else:  
    import collectd  
    cpu_status_mon = CPUStatMon()  
    collectd.register_config(cpu_status_mon.configure_callback)  
    collectd.register_read(cpu_status_mon.read_callback)
    collectd.register_write(cpu_status_mon.write_callback)  

END

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,647评论 18 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,988评论 25 707
  • Spring Boot 参考指南 介绍 转载自:https://www.gitbook.com/book/qbgb...
    毛宇鹏阅读 46,799评论 6 342
  • 软件的持续集成工具之一,易上手,功能强大,话不多说,干货奉上。我的博客地址:http://blog.lzoro.c...
    格子Lin阅读 12,214评论 10 41
  • 我们都爱过,也伤过。随着时间流逝,一切似乎云淡风轻起来。 在你以为自己已经渐渐淡忘前尘往事的时候,读了一篇文,或者...
    花悠然阅读 435评论 0 3