报警平台的设计与实现

报警平台

整个平台依赖于es进行日志存储,客户端通过文件保存日志,并推送到es中。服务器端从es拉取日志进行解析并报警。

1.业务报警日志格式的设计

一个优雅的日志格式设计,能够有效的改善内存使用,硬盘存储,网络资源占用等问题。这里通过借鉴别人的一些经验高性能的智能日志,来设计一个合适的日志格式。

字段名称 数据类型 字段说明 备注
uuid long 日志唯一id 非空
time timestamp 时间戳 非空
level int 日志级别 1 info,2 warn,3 error
ip long 所在机器ip 非空
group int 日志所属组 非空
app int 项目名称 1 项目a ,2 项目b
msg String 日志标题 非空
detail String 完整信息 非空

2.报警日志SDK

sdk必须要满足的几点:
1.异步保存日志(降低引入sdk对系统带来的影响)

sdk内维护一个存储报警日志的list。每次有报警日志时,只用添加到list中就行。

2.定时写入日志文件(通过队列的形式,定时写入本地文件,降低对文件的频繁写入,当然可以根据日志的级别来确定).初版需要先写入本地文件,后期需要加上直接写入es或者kibana等的方式,这样,不用落盘直接将数据送出去。
3.定义日志文件需要的一些基础信息:项目枚举,level枚举
4.针对不同项目提供不同的方法接口

3.上报报警日志

在docker环境下,可以通过阿里开源的log-pilot来进行日志上报。如果没有在docker环境下,可以通过logstash将文件上报到es中。上报这里,针对不同的并发情况进行调优,等实战的时候再更优化的细节。

4.报警日志的分析与报警

其实有了报警日志之后,最重要的是,如何优雅把这条报警信息及时的推送给对的人。以及在通知过之后,该条报警信息时候已经被处理,被谁处理了。所以这里,大概梳理了几个功能点:
1.定时从es拉取报警信息

    通过定时任务来实现的拉取报警信息,开始我想的是定义一个时间差,每隔几秒去读取es某个时间段的数据,要保证所有时间段都是相接的。
但是这样有个问题就是,es在存储数据的时候是有一定的延迟的,数据创建完成到完全存储肯定是要在数据创建之后的时间发生的。这个时间
差由中间的网络传输以及磁盘消耗导致的。所以这时按时间段去拉数据,会因为延迟的问题,导致数据丢失。
    所以,我们采用了确认更新的策略,通过对所有已读的数据进行标记,来确认我们消费过的数据不会被重复消费,同样每次也只获取到未消费的数据。

2.根据报警信息,推送(钉钉,微信,邮件)给指定用户组内的所有用户。用户确认接收报警信息。
3.统计分析时间段的报警信息。

5.系统监控的报警日志

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,161评论 19 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 176,458评论 25 709
  • 顶霜披雪傲严寒, 冰天雪地展笑颜。 蛰伏三季只等闲, 百花败残独代言。
    蜀山袖手人阅读 2,463评论 1 9
  • 终于难得有时间静一静,安抚一下自己这颗跳动的心,虽然按照惯例每年都会写一写年度总结,但回忆往年,貌似总也得不...
    GabrielMorningS阅读 2,939评论 0 0
  • 经常听到很多微商团队领袖说团队不好管,说了不听,听了不做,做了没效果......团队没士气,留不住人才等等。大智集...
    博弈聊赚钱阅读 2,958评论 0 0

友情链接更多精彩内容