解析规则学习--正则解析

俗话说,无规矩不成方圆,任何事物都是有着他的规律的,尤其对于日志数据更需要进行规范管理,才能更好的被我们使用。话不多说,下面简单聊聊我自己的一些认识吧。

解析规则重要概念
  通常对于一条日志,我们看一大串日志的时候特别累,尤其是各种开发/运维大大们,每天看着大量的日志,很容易头昏眼花的,这就需要我们能够将这大量的日志规范管理起来,能够快速便捷的看到需要的关键字段及发生时间等。

下面说下日志数据的几个概念:

  • event(事件): 一条日志称为一个事件,即对该条日志进行有效信息提取
  • timestamp(时间戳): 这里的timestamp指日志发生的时间,准确的发生时间可以帮我们快速定位
  • field(字段): 即需要抽取出来的关键字段

日志的解析
  日志解析的主要作用就是抽取用户需要的字段,便于用户快速搜索。

例如这样一条日志:

217.197.192.20 - - [04/Jul/2016:19:24:47] "GET /product.screen?productId=DC-SG-G02&JSESSIONID=SD3SL10FF7ADFF5228 HTTP 1.1" 200 1331 "http://www.buttercupgames.com/cart.do?action=addtocart&itemId=EST-16&productId=DC-SG-G02" "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; BOIE9;ENUS)" 142

要抽取出如下字段:

"productId": "DC-SG-G02",
"verb": "GET",
"JSESSIONID": "SD3SL10FF7ADFF5228",
"menu": "product.screen",
"response": "200",
"bytes": "1331",
"clientIp": "217.197.192.20",
"httpversion": "1.1",
"timestamp": "04/Jul/2016:19:24:47"

这就需要通过配置解析规则来提取出相应的字段。

下面我们就简单介绍一下最常用也最好用的正则解析。

正则表达式概念

  正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。
  正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,然后用这个“规则字符串”来对原始字符串进行过滤。
  正则表达式由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义。

限定字符

限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。

限定字符 描述
\ 可以理解为“转义字符”
* 匹配子表达式0次或任意多次,等价于{0,}。
+ 匹配子表达式1次或多次(至少1次),+等价于{1,}。
? 匹配子表达式0次或1次,或指明一个非贪婪限定符。
. 匹配除“\r\n”之外的任何单个字符。
{n} n是一个非负整数,匹配确定的n次。
{n,} n是一个非负整数,至少匹配n次。
“{1,}”等价于“o+”。“{0,}”则等价于“o*”。
{n,m} m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。
请注意在逗号和两个数之间不能有空格。

*、+和?限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。
例如,搜索 HTML 文档,查找括在 H1 标记内的章节标题,如下:

<H1>介绍正则表达式</H1>

贪婪:匹配从小于符号 (<) 到大于符号 (>) 之间的所有内容:

/<.*>/

非贪婪:只匹配开始和介绍 H1 标记:

/<.*?>/

如果只想匹配开始的 H1 标签:

/<\w+?>/

定位字符

定位符能够快速将正则表达式固定到行首或行尾,也能够用来描述字符串或单词的边界,^ 和 $ 分别指字符串的开始与结束,\b 描述单词的前或后边界,\B 表示非单词边界。

定位字符 描述
\b 匹配一个单词边界,也就是指单词和空格间的位置。
例如:“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。
\B 匹配非单词边界。
例如:“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”
^ 匹配输入字符串的开始位置。
若在方括号表达式中使用,此时它表示不接受该字符集合。
$ 匹配输入字符串的结尾位置。
[ 标记一个中括号表达式的开始。
{ 标记限定符表达式的开始。

注意:不能将限定符与定位符一起使用。由于在紧靠换行或者字边界的前面或后面不能有一个以上位置,因此不允许诸如 ^* 之类的表达式。

捕获分组

捕获分组,顾名思义,分组就是用小括号里将指定子表达式包裹起来,而捕获就是在使用小括号指定一个子表达式后,匹配这个子表达式的文本(即匹配的内容)

字符分组 描述
(pattern) 标记一个子表达式的开始和结束位置,将( 和 ) 之间的表达式定义为“组”(group),匹配pattern并获取这一匹配。
(?:pattern) 非获取匹配,匹配pattern但不获取匹配结果,不进行存储供以后使用。
(?=pattern) 非获取匹配,正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。预查不消耗字符,也就是说,在一个匹配发生后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
(?!pattern) 非获取匹配,正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。
(?<name>pattern) 匹配,并pattern捕获文本到名称为name的组里

字符匹配

方括号表示某些字符允许在一个字符串中的某一特定位置出现

字符 描述
[xyz] 字符集合。匹配所包含的任意一个字符。例如:“[abc]”可以匹配“plain”中的“a”。
[^xyz] 负值字符集合。匹配未包含的任意字符。例如:“[abc]”可以匹配“plain”中的“plin”。[,]匹配除逗号外的 0或者多个非逗号字符, ([^,] \ ) 将这些非逗号字符标记为\1,这样可以在之后的替换模式表达式中引用它, ([^,]*\ ), 我们必须找到0或者多个非逗号字符后面跟着一个逗号,并且非逗号字符那部分
[a-z] 字符范围。匹配指定范围内的任意字符。例如:“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。注意:只有连字符在字符组内部时,并且出现在两个字符之间时,才能表示字符的范围。
[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如:“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。

在方括号里可以用'^' 表示不希望出现的字符,'^' 应在方括号里的第一位。(如:"%[^a-zA-Z]%"表示两个百分号中不应该出现字母)。

其他常用字符

常用字符 描述
\d 匹配一个数字字符。等价于[0-9]。
\D 匹配一个非数字字符。等价于[^0-9]。
\s 匹配任何不可见字符,包括空格、制表符、换页符等等。
\S 匹配任何可见字符。
\w 匹配包括下划线的任何单词字符。类似但不等价于“[A-Za-z0-9_]”,这里的"单词"字符使用Unicode字符集。
\W 匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。

实例应用
1、匹配日期:

28 十月 2016 08:38:01,745 INFO 1477530920004|616 frame.login.Login

正则表达式:

^ \d{2} \S* \d{4} \d{2}:\d{2}:\d{2},\d+

其中,\d表示匹配数值,\d{2}表示匹配2位数值,\S表示匹配非空字符
常用于多行合并

2、对规范日志提取字段

2016-05-14 23:24:47 worker01 25629 INFO Accepted password for root from 192.168.31.182 port 52119 ssh2

正则表达式:

(?<timestamp>\S+ \S+) (?<hostname>\S+) (?<pid>\S+) (?<LogLevel>\S+) (? <msg>.*)

其中,\S 表示匹配非空字符,\S+ 表示匹配连续的非空字符,(?<key>value) 表示提取字段名为key 的字段,其值为value, . 表示匹配除“\r\n”之外任何单词字符,* 表示匹配0或多个字符。

3、对xml日志提取字段

<ns3:ConsumerId>0006</ns3:ConsumerId><ns3:TranSeqNo>1234567890</ns3:TranSeqNo>

正则表达式:

((<(\w* :)?ConsumerId>)(?<ConsumerId>[^<])(</(\w:)?ConsumerId>))
((<(\w* :)?TranSeqNo>)(?<TranSeqNo>[^<])(</(\w:)?TranSeqNo>))

其中,\w表示匹配包括下划线的任何单词字符,表示匹配0或多个字符,[^<]表示匹配除 < 外的任何字符。
常用于在xml日志中,根据提取字段的规范格式,输入正则表达式进行匹配

4、字节转码

00000000h: 30 30 30 30 34 35 34 35 3c 3f 78 6d 6c 20 76 65 ; 00004545<?xml.ve
00000010h: 72 73 69 6f 6e 3d 22 31 2e 30 22 20 65 6e 63 6f ; rsion="1.0".enco
00000020h: 64 69 6e 67 3d 22 55 54 46 2d 38 22 3f 3e 3c 53 ; ding="UTF-8"?><S
00000030h: 53 56 42 3e 3c 54 41 63 42 6c 63 56 69 65 77 52 ; SVB>

正则表达式:

([0-9a-fA-F]{2} ){3,30}

[ ] 中的内容是可选字符集
[0-9a-fA-F] 表示要求字符范围在0-9,a-f,A-F之间
{3,30}表示数字字符串长度合法为3到30,即为[0-9a-fA-F]中的字符出现次数的范围是3到30次。

5、常用数字匹配

^[1-9]\d* $   //匹配正整数   
^-[1-9]\d* $   //匹配负整数   
^-?[1-9]\d* $ //匹配整数   
^[1-9]\d* |0$ //匹配非负整数(正整数 + 0)   
^-[1-9]\d* |0$ //匹配非正整数(负整数 + 0)   
^\s* |\s* $   //匹配首尾空白字符的正则表达式
\n\s* \r    //匹配空白行的正则表达式

6、限制输入6-20个字母、数字、下划线

/^(\w){6,20}$/

\w:用于匹配字母,数字或下划线字符
^ 表示打头的字符要匹配紧跟^后面的规则
$ 表示打头的字符要匹配紧靠$前面的规则

7、限制只能输入5-20个以字母开头、可带数字、“_”、“.”的字串

/^[a-zA-Z]{1}([a-zA-Z0-9]|[._]){4,19}$/

^[a-zA-Z]{1} 表示第一个字符要求是字母。
([a-zA-Z0-9]|[.]){4,19} 表示从第二位开始的一个长度为4到19位的字符串是由大小写字母、数字以及特殊字符集[.]组成。

持续更新中。。。。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,644评论 18 139
  • 推荐几个正则表达式编辑器 Debuggex :https://www.debuggex.com/ PyRegex:...
    木易林1阅读 11,483评论 9 151
  • 几个正则表达式编辑器 Debuggex :https://www.debuggex.com/ PyRegex:ht...
    没技术的BUG开发攻城狮阅读 4,585评论 0 23
  • 初衷:看了很多视频、文章,最后却通通忘记了,别人的知识依旧是别人的,自己却什么都没获得。此系列文章旨在加深自己的印...
    DCbryant阅读 3,996评论 0 20
  • 画图 "{1} {0} {1}".format("hello", "world") # 设置指定位置'world...
    ericsunn阅读 263评论 0 0