日志那些事儿

一、什么是日志

在计算机领域，日志是一个记录了发生在运行中的操作系统或其他软件中的事件，或者记录了在网络聊天软件的用户之间发送的消息。在任何系统中，日志都是非常重要的组成部分，它是反映系统运行情况的重要依据，也是排查问题时的必要线索。

二、日志的用处

好的日志可以帮助我们

了解线上系统的运行状态
快速准确定位线上问题
发现系统瓶颈
预警系统潜在风险
挖掘产品最大价值
……

三、日志的类型

访问日志

访问日志一般是记录了所有对web服务器的访问请求，这样网络管理员就可以分析用户的浏览行为，找到热点，找到待优化的地方。

行为日志

行为日志是用来记录记录和统计用户触发的各种行为。
是网站运营人员统计、分析用户的重要依据

应用日志

应用日志包含应用程序编写的各种错误消息、警告或其他事件。这些消息可以提供连接到特定用例的逻辑、高级信息。这些消息可以帮助我们了解应用程序的行为。常见的一些应用日志内容为：

调用依赖的外部第三方系统的消息提示
业务异常的堆栈跟踪。
重要的状态变化。

系统日志

系统日志是记录系统中硬件、软件和系统问题的信息，同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因，或者寻找受到攻击时攻击者留下的痕迹。

日志格式

每种类型的日志都有一些自己的日志格式，这里我们推荐一个行业标准的日志格式：

Common Log Format(access log)

它又称The NCSA Common Log,是web服务器产生访问日志的标准格式

下列是一个日志示例以及各字段的说明:

125.125.125.125 - dsmith [10/Oct/1999:21:15:05 +0500] "GET /index.html HTTP/1.0" 200 1043

下列是对这个例子中的字段解释:

字段	说明
host (125.125.125.125 in the example)	发出这次HTTP请求的客户端主机的IP地址
rfc931 ("-" in the example)	用于标识发出HTTP请求的客户端的标识符。如果不存在值，则替换“ - ”
username (dsmith in the example)	用户名/用户ID，主要用于客户端的认证。如果不存在值，则替换“ - ”
date:time timezone ([10/Oct/1999:21:15:05 +0500] in the example)	这次HTTP请求的日期以及时间戳
request ("GET /index.html HTTP/1.0" in the example)	HTTP请求。请求字段包含三条信息。主要部分是请求的资源（index.html）。请求字段还包含HTTP方法（GET）和HTTP协议版本（1.0）
statuscode (200 in the example)	状态码，标识此次请求是失败还是成功
bytes (1043 in the example)	一次Http请求中，所传输的数据大小，不包括Http头

日期/时间字段里的具体格式是：

[dd/MMM/yyyy:hh:mm:ss +-hhmm]

字段	说明
dd	是当月所在的日子
MMM	月份
yyy	年
:hh	小时
:mm	分钟
:ss	秒
+-hhmm	时区

实际上，即使是一位数天，这一天通常也会以两位数格式记录。例如，该月的第二天将表示为02。但是，某些HTTP服务器会将单个数字日记录为单个数字，所以在看日志的时候，要知道这两种日期格式的存在。

日志等级

DEBUG：该级别日志的主要作用是对系统每一步的运行状态进行精确的记录。可以将各类详细信息记录到DEBUG里，起到调试的作用，包括参数信息、调试细节信息、返回值信息等。

INFO：该种日志记录系统的正常运行状态，通过查看INFO级别的日志，可以很快地对系统中出现的 WARN,ERROR,FATAL错误进行定位。可以将初始化系统配置、业务状态变化信息，或者用户业务流程中的核心处理记录到INFO日志中，方便日常运维工作以及错误回溯时上下文场景复现。

WARN：该日志表示系统可能出现问题，也可能没有。

ERROR：该级别的错误也需要马上被处理，但是紧急程度要低于FATAL级别。ERROR应该尽量详细记录。

FATAL：需要立即被处理的系统级错误。系统需要将错误相关痕迹以及错误细节记录FATAL日志中，方便后续人工回溯解决。

日志系统

在Unix系统上，有两类常用的日志系统，很多日志系统都是基于他们做了具体的实现：

1.syslog

Syslog常被称为系统日志或系统记录，是一种用来在互联网协议（TCP/IP）的网上中传递记录档消息的标准。这个词汇常用来指涉实际的syslog协议，或者那些提交syslog消息的应用程序或数据库。常见的应用场景是网络管理工具、安全管理系统、日志审计系统。

完整的syslog日志中包含产生日志的程序模块（Facility）、严重性（Severity或 Level）、时间、主机名或IP、进程名、进程ID和正文。在Unix类操作系统上，能够按Facility和Severity的组合来决定什么样的日志消息是否需要记录，记录到什么地方，是否需要发送到一个接收syslog的服务器等。

下面是一个syslog消息：

<30>Oct 9 22:33:20 hlfedora auditd[1787]: The audit daemon is exiting.

其中“<30>”是PRI部分，“Oct 9 22:33:20 hlfedora”是HEADER部分，“auditd[1787]: The audit daemon is exiting.”是MSG部分。

具体syslog的格式可参考 RFC3164：https://www.ietf.org/rfc/rfc3164.txt

2.journald

与传统日志系统syslog相对应的，是二进制日志格式的journalctl。
关于jornalctl是什么，可以看看鸟哥写的这篇简介：systemd-journald.service 简介

为什么出现journalctl？

以往，日志往往被分散在整套系统当中，由不同的守护进程及进程负责处理，这就让我们很难跨越多种应用程序对其内容进行解读。而从Centos7开始，
systemd尝试提供一套集中化管理方案，从而统一打理全部内核及用户级进程的日志信息。这套系统能够收集并管理日志内容，而这也就是我们所熟知的journal。

Journal的实现归功于journald守护进程，其负责处理由内核、initrd以及服务等产生的信息。你可以看下这篇文章，看看如何使用journalctl来查看日志：https://www.linode.com/docs/quick-answers/linux/how-to-use-journalctl/

作为一个二进制格式的日志，网上对此有很多争议和讨论，Douglas DeMaio在文章syslog-ng vs. systemd’s journald中认为syslog比journalctl的更好，他认为syslog在多机器下性能表现更好，并且可以支持更多的输入/输出源；但也有人认为journatl 更好，因为它可以让开发者更容易检索到他们要查看的应用日志，而且这些日志是结构化的。比如这篇Why journal？就描述了另一种观点。

分布式系统日志：zipkin调用链服务日志

分布式系统日志统一的手段有很多，比如常见的ELK，但这些日志都是文本，不太容易做分析。我们遇到问题时，更多的想查看从上至下的的关键点的入参、出参、异常，关键节点的响应时间等等，将分散的请求串联在一起，查看整个调用链数据。在这里常用的工具便是zipkin了。

Zipkin是一款开源的分布式实时数据追踪系统（Distributed Tracking System），基于 Google Dapper的论文设计而来，由 Twitter 公司开发贡献。其主要功能是聚集来自各个异构系统的实时监控数据。了解zipkin之前，你可以先了解下Google Dapper，这是它的论文：https://ai.google/research/pubs/pub36356
对于zipkin，你需要了解以下概念：

Brave：
提供了面向 Standard Servlet、Spring MVC、HTTP Client、JAX RS、Jersey、Resteasy 和 MySQL等接口的装备能力，可以通过编写简单的配置和代码，让基于这些框架构建的应用可以向 Zipkin 报告数据。同时 Brave 也提供了非常简单且标准化的接口，在以上封装无法满足要求的时候可以方便扩展与定制。
- traceId： 一次请求全局只有一个traceId。用来在海量的请求中找到同一链路的几次请求。
spanId： 每个请求都有一个独立的spanId,例如一次RPC，一次SQL均会产生
cs: 客户端发起请求的时间
cr: 客户端收到处理完请求的时间
ss: 服务端处理完逻辑的时间
sr: 服务端接受请求的时间

日志的归档

日志在运行过程中，增长会越来越快，服务器会很快消耗磁盘空间。Linux下有个logrotate工具，可以帮助我们进行日志的滚动归档等日志操作。logrotate是个十分有用的工具，它可以自动对日志进行截断（或轮循）、压缩以及删除旧的日志文件。我们只需要在/etc/logrotate.conf这个目录下配置logrotate的配置文件即可。

logrotate的使用

一般会定时运行 logrotate，通常是每天一次；当然也可以定时任务contrab配合使用，直接运行 /etc/cron.daily/logrotate 脚本。详细的使用办法可以去官网上查看

日志的最佳实践

对于如何更好地打log这件事，网上有不少最佳实践，这里你可以看看这几篇文章：

Logging best pratices
Java Best Practices for Smarter Application Logging & Exception Handling
阿里巴巴开发手册

Reference：

最后编辑于：2019.08.04 22:48:07

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342