HyperScan 标志位分析

Hyperscan是一款来自于Intel的高性能的正则表达式匹配库。它是基于X86平台以PCRE为原型而开发的,并以BSD许可开源在https://01.org/hyperscan。在支持PCRE的大部分语法的前提下,Hyperscan增加了特定的语法和工作模式来保证其在真实网络场景下的实用性。与此同时,大量高效算法及IntelSIMD*指令的使用实现了Hyperscan的高性能匹配。Hyperscan适用于部署在诸如DPI/IPS/IDS/FW等场景中,目前已经在全球多个客户网络安全方案中得到实际的应用。

为了提高hyperscan的高效使用,在编译的同时,可以指定标志位进行不同的模式选择,以便我们更好的提取出需要的数据。今天就来简单跟大家聊一聊各种标志位的使用方法。

hyperscan开发者文档:http://intel.github.io/hyperscan/dev-reference/api_files.html

编译标志:HS_FLAG_CASELESS

设置不区分大小写的匹配。

此标志将表达式设置为默认情况下不区分大小写。该表达式仍然可以使用PCRE令牌(特别是(?i)和(?-i))来打开和关闭不区分大小写的匹配。在网络编程过程中,对于大小写的控制还是非常重要的。

编译标志:HS_FLAG_DOTALL

匹配过程中,使用"."进行匹配,遇到换行符不会停止。

此标志设置.令牌的任何实例以匹配换行符和所有其他字符。

PCRE规范声明"."默认情况下与换行符(\r\n)不匹配,因此如果没有此标记,则"."将会到换行时终止。

编译标志:HS_FLAG_MULTILINE

设置多行锚定。

此标志指示表达式使^和$标记匹配换行符以及流的开始和结束。如果未指定此标志,则^令牌将仅在流的开头匹配,并且$令牌将仅在PCRE规范的指导内的流的末尾匹配。

编译标志:HS_FLAG_SINGLEMATCH

设置仅匹配模式。

此标志将表达式的匹配ID设置为最多匹配一次。在流模式下,这意味着表达式将在流的生命周期内仅返回单个匹配,而不是按照标准Hyperscan语义报告每个匹配。在块模式或向量模式下,将仅返回每次调用hs_scan()hs_scan_vector()的第一个匹配项。

如果数据库中的多个表达式共享相同的匹配ID,则它们必须全部指定HS_FLAG_SINGLEMATCH,或者它们都不指定HS_FLAG_SINGLEMATCH。如果共享匹配ID的一组表达式指定该标志,则每个流最多将生成一个与匹配ID匹配的匹配。

注意:目前不支持将此标志与HS_FLAG_ SOM _LEFTMOST结合使用。

编译标志:HS_FLAG_ALLOWEMPTY

允许可以匹配空缓冲区的表达式。

此标志指示编译器允许,可以匹配对空的缓冲器,如.?,.*,(a|)。由于Hyperscan可以返回表达式的每个可能的匹配,因此这些表达式通常执行得非常慢; 默认行为是在尝试编译一个时返回错误。使用此标志将强制编译器允许这样的表达式。但是hyperscan不支持断言,这对于单纯想要匹配位置的话,相对增加了匹配难度。在使用?进行断言的时候,需要思考是否有其他的匹配方式进行正则匹配。

编译标志:HS_FLAG_UTF8

为此表达式启用UTF-8模式。

此标志指示Hyperscan将模式视为UTF-8字符序列。使用此标志使用一个或多个模式编译的Hyperscan库扫描无效UTF-8序列的结果未定义。

编译标志:HS_FLAG_UCP

为此表达式启用Unicode属性支持。

此标志指示Hyperscan使用Unicode属性,而不是默认的ASCII解释,字符助记符像\w和\s还有POSIX字符类。它仅与HS_FLAG_UTF8一起使用才有意义。

编译标志:HS_FLAG_PREFILTER

为此表达式启用预过滤模式。

此标志指示Hyperscan编译此模式的“近似”版本以用于预过滤应用程序,即使Hyperscan在正常操作中不支持该模式也是如此。

使用此标志时返回的匹配集保证是非预先过滤表达式指定的匹配的超集。

如果模式包含Hyperscan不支持的模式构造(例如零宽度断言,反向引用或条件引用),则这些构造将在内部被更广泛的构造替换,这些构造可能更频繁地匹配。

此外,在预过滤模式中,Hyperscan可以简化在编译时或者出于性能原因(在上面的匹配保证的情况下)返回“模式太大”错误的模式。

通常预期应用程序随后将确认预过滤器与另一个可以为模式提供精确匹配的正则表达式匹配器匹配。

注意:目前不支持将此标志与HS_FLAG_ SOM _LEFTMOST结合使用。

编译标志:HS_FLAG_SOM_LEFTMOST(目前我使用最多的匹配模式,超耐用)

启用最左侧的匹配报告开始。(就是将你的指针直接定位到匹配的位置,通过memcpy或者strcpy就可以直接拷贝需要的字段了)

此标志指示Hyperscan在报告此表达式的匹配时报告最左侧可能的匹配偏移开始。(默认情况下,不返回匹配开始。)

启用此行为可能会降低性能并增加流模式下的流状态要求。

编译标志:HS_FLAG_COMBINATION

逻辑组合。

此标志指示Hyperscan将此表达式解析为逻辑组合语法。逻辑约束由操作数,运算符和括号组成。操作数是表达式索引,运算符可以是'!'(NOT),'&'(AND)或'|'(OR)。例如:(101&102&103)|(104&!105)((301 | 302)&303)&(304 | 305)

编译标志:HS_FLAG_QUIET

不做任何匹配报告。

此标志指示Hyperscan忽略此表达式的匹配报告。它被设计用于逻辑组合中的子表达式。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容