Hyperscan是一款来自于Intel的高性能的正则表达式匹配库。它是基于X86平台以PCRE为原型而开发的,并以BSD许可开源在https://01.org/hyperscan。在支持PCRE的大部分语法的前提下,Hyperscan增加了特定的语法和工作模式来保证其在真实网络场景下的实用性。与此同时,大量高效算法及IntelSIMD*指令的使用实现了Hyperscan的高性能匹配。Hyperscan适用于部署在诸如DPI/IPS/IDS/FW等场景中,目前已经在全球多个客户网络安全方案中得到实际的应用。
为了提高hyperscan的高效使用,在编译的同时,可以指定标志位进行不同的模式选择,以便我们更好的提取出需要的数据。今天就来简单跟大家聊一聊各种标志位的使用方法。
hyperscan开发者文档:http://intel.github.io/hyperscan/dev-reference/api_files.html
编译标志:HS_FLAG_CASELESS
设置不区分大小写的匹配。
此标志将表达式设置为默认情况下不区分大小写。该表达式仍然可以使用PCRE令牌(特别是(?i)和(?-i))来打开和关闭不区分大小写的匹配。在网络编程过程中,对于大小写的控制还是非常重要的。
编译标志:HS_FLAG_DOTALL
匹配过程中,使用"."进行匹配,遇到换行符不会停止。
此标志设置.令牌的任何实例以匹配换行符和所有其他字符。
PCRE规范声明"."默认情况下与换行符(\r\n)不匹配,因此如果没有此标记,则"."将会到换行时终止。
编译标志:HS_FLAG_MULTILINE
设置多行锚定。
此标志指示表达式使^和$标记匹配换行符以及流的开始和结束。如果未指定此标志,则^令牌将仅在流的开头匹配,并且$令牌将仅在PCRE规范的指导内的流的末尾匹配。
编译标志:HS_FLAG_SINGLEMATCH
设置仅匹配模式。
此标志将表达式的匹配ID设置为最多匹配一次。在流模式下,这意味着表达式将在流的生命周期内仅返回单个匹配,而不是按照标准Hyperscan语义报告每个匹配。在块模式或向量模式下,将仅返回每次调用hs_scan()或hs_scan_vector()的第一个匹配项。
如果数据库中的多个表达式共享相同的匹配ID,则它们必须全部指定HS_FLAG_SINGLEMATCH,或者它们都不指定HS_FLAG_SINGLEMATCH。如果共享匹配ID的一组表达式指定该标志,则每个流最多将生成一个与匹配ID匹配的匹配。
注意:目前不支持将此标志与HS_FLAG_ SOM _LEFTMOST结合使用。
编译标志:HS_FLAG_ALLOWEMPTY
允许可以匹配空缓冲区的表达式。
此标志指示编译器允许,可以匹配对空的缓冲器,如.?,.*,(a|)。由于Hyperscan可以返回表达式的每个可能的匹配,因此这些表达式通常执行得非常慢; 默认行为是在尝试编译一个时返回错误。使用此标志将强制编译器允许这样的表达式。但是hyperscan不支持断言,这对于单纯想要匹配位置的话,相对增加了匹配难度。在使用?进行断言的时候,需要思考是否有其他的匹配方式进行正则匹配。
编译标志:HS_FLAG_UTF8
为此表达式启用UTF-8模式。
此标志指示Hyperscan将模式视为UTF-8字符序列。使用此标志使用一个或多个模式编译的Hyperscan库扫描无效UTF-8序列的结果未定义。
编译标志:HS_FLAG_UCP
为此表达式启用Unicode属性支持。
此标志指示Hyperscan使用Unicode属性,而不是默认的ASCII解释,字符助记符像\w和\s还有POSIX字符类。它仅与HS_FLAG_UTF8一起使用才有意义。
编译标志:HS_FLAG_PREFILTER
为此表达式启用预过滤模式。
此标志指示Hyperscan编译此模式的“近似”版本以用于预过滤应用程序,即使Hyperscan在正常操作中不支持该模式也是如此。
使用此标志时返回的匹配集保证是非预先过滤表达式指定的匹配的超集。
如果模式包含Hyperscan不支持的模式构造(例如零宽度断言,反向引用或条件引用),则这些构造将在内部被更广泛的构造替换,这些构造可能更频繁地匹配。
此外,在预过滤模式中,Hyperscan可以简化在编译时或者出于性能原因(在上面的匹配保证的情况下)返回“模式太大”错误的模式。
通常预期应用程序随后将确认预过滤器与另一个可以为模式提供精确匹配的正则表达式匹配器匹配。
注意:目前不支持将此标志与HS_FLAG_ SOM _LEFTMOST结合使用。
编译标志:HS_FLAG_SOM_LEFTMOST(目前我使用最多的匹配模式,超耐用)
启用最左侧的匹配报告开始。(就是将你的指针直接定位到匹配的位置,通过memcpy或者strcpy就可以直接拷贝需要的字段了)
此标志指示Hyperscan在报告此表达式的匹配时报告最左侧可能的匹配偏移开始。(默认情况下,不返回匹配开始。)
启用此行为可能会降低性能并增加流模式下的流状态要求。
编译标志:HS_FLAG_COMBINATION
逻辑组合。
此标志指示Hyperscan将此表达式解析为逻辑组合语法。逻辑约束由操作数,运算符和括号组成。操作数是表达式索引,运算符可以是'!'(NOT),'&'(AND)或'|'(OR)。例如:(101&102&103)|(104&!105)((301 | 302)&303)&(304 | 305)
编译标志:HS_FLAG_QUIET
不做任何匹配报告。
此标志指示Hyperscan忽略此表达式的匹配报告。它被设计用于逻辑组合中的子表达式。