Exception 拆解

代码中的异常(exception), 是三个部分组成的. 不信你往下看.

0x00 举个例子

看如下错误的堆栈信息:

java.lang.RuntimeException: error occur
    at test.mysql.ExceptionTest$DemoClass.callErrorMethod(ExceptionTest.java:19)
    at test.mysql.ExceptionTest.testException(ExceptionTest.java:14)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at  test.demo.DemoMain.method1(Demo.java:20)
    

如果想知道这个调用路径错误出现了多少次,最简单的办法就是搜索对应的字符串 test.mysql.ExceptionTest$DemoClass.callErrorMethod(ExceptionTest.java:19),无论是最原始的去原始日志中执行 grep , 或者去 ELK 中搜索。但这个结果真的精确吗?

仔细观察,下面这个堆栈信息的调用路径,和第一个有什么不同?

java.lang.RuntimeException: error occur
    at test.mysql.ExceptionTest$DemoClass.callErrorMethod(ExceptionTest.java:19)
    at test.mysql.ExceptionTest.testException(ExceptionTest.java:14)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at  test.demo.DemoMain.method2(Demo.java:40)
    

是的,两个虽然长得类似,但调用路径确实不相同的,一个是从 test.demo.DemoMain.method1() 开始, 另一个是从 test.demo.DemoMain.method2() 而来。因此,这两个不是同一种错误。

0x01 异常拆解

仔细想,可以把一个错误的堆栈分成三个部分:

  • exception:就是指具体的 exception 类。比如上述例子就是 java.lang.RuntimeException
  • exception message:指当时创建 exception 时填入的错误具体信息。上述例子中就是这句 error occur
  • exception fingerprint:异常的指纹,代表当前错误发生时程序的调用路径。上述例子中,两个异常的调用路径时不同的, 因此 exception fingerprint 也应该不同
异常拆解

那么如何计算 exception fingerprint?其实也很简单,直接 md5(stacktrace_without_message_string) 就足够了。上述例子中, 直接堆栈信息中出去 error occur 的字符串的 md5 值即可。

0x02 如何使用?

直接在日志中 grep 然后跨行计算 md5 肯定是很蛋疼的。可现在大家不都是 docker 化 + 统一收集应用日志(比如 ELK)吗?
以 Java 应用为例, 通过一个 appender, 将日志发送到集中的日志收集服务, 对其中 ERROR 级别的日志计算 exception finterprint. 开发人员直接通过 web 界面查询错误日志信息.

Demo Arch

0x03 回头再看 exception

拆解 exception 后, 引申出抛出异常时的一些 best practice

3.1 同种类型的错误, 使用同一种类型的 exception.

很多语言都支持通过继承基础 exception 类的方式, "创造"出多种 exception 类型

3.2 写好 exception 中的 message

exception message 中务必携带有用的 context 信息, 用于后续排查错误. 很多这里做的不够好, 每次出现错误都需要去翻源码获取最基本的错误信息. 例如, Java 中如下一段代码在不同线程执行两次, 会出现端口被占用的错误.

    try {
        ServerSocket socket2 = new ServerSocket(9090);
        socket2.accept();
        Thread.sleep(10000000);
      } catch (Exception ex) {
        ex.printStackTrace();
    }

但你看一眼错误信息: Address already in use, 仅此而已. 你倒是告诉我到底是哪个端口被占用了啊! 临时工写的代码十几年都没人修改过?

java.net.BindException: Address already in use
    at java.net.PlainSocketImpl.socketBind(Native Method)
    at java.net.AbstractPlainSocketImpl.bind(AbstractPlainSocketImpl.java:382)
    at java.net.ServerSocket.bind(ServerSocket.java:375)
    at java.net.ServerSocket.<init>(ServerSocket.java:237)
    at java.net.ServerSocket.<init>(ServerSocket.java:128)
    at test.mysql.ExceptionTest$Server

3.3 多使用 �exception fingerprint 精确定位同一个错误

如果实现了 exception fingerprint 功能, 就可以在 ELK 中方便的使用 fingerprint 字符串搜索出同一种错误, 并且获得统计结果.

0x04 总结

计算 fingerprint 不仅限于 exception, 试想, MySQL 的 slow query 是不是也可以计算 fingerprint ?

-- EOF --

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,324评论 19 139
  • https://nodejs.org/api/documentation.html 工具模块 Assert 测试 ...
    KeKeMars阅读 11,499评论 0 6
  • (http://www.cnblogs.com/zhangchenliang/p/4546352.html) 1、...
    凌雲木阅读 7,162评论 0 2
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,173评论 25 709
  • 青春就像朝气蓬勃的旭日,拥有最旺盛的精力、最炽热的激情和最恢宏的想象。真正的青春永远属于那些力争上游的人。谁拥有青...
    8a5bc35c564a阅读 1,397评论 0 0