如何使用阿里云WAF进行反爬虫

如何使用阿里云WAF进行反爬虫

0x01 为什么要反爬虫

这是一个老生常谈的问题,爬虫使得互联网更加丰富多彩,但也有各种各样的问题:

防资源过度消耗

大量的爬虫会给网站带来极大的压力,由于并不是真实访问,对于一般网站来说,有百害而无一利。

防止侵权

网络上大部分伪原创、侵权内容都是靠爬虫采集来的,除了搜索引擎的爬虫外,其他的爬虫难免都会有不可描述的目的,频繁的爬取网站的内容,会导致网站内容被复制,从而使得我们辛辛苦苦运营的网站被轻易的克隆。

0x02 反爬应对方法

  1. 通过headers进行反爬虫
    headers反爬是最常见最基础的反爬手段,通过判断User-agent的内容来识别爬虫和访客,但User-agent是非常容易被修改的,所以这种方式也是最好绕过的。
  2. 基于用户行为的反爬
    如何一个访客短时间内访问了大量页面,访问速度明显超过了一般人的阅读速度,那么基本可以判定为爬虫,或者是一些非忠诚访客,可以直接进行封禁,缺点是容易错封,并且可以通过更换ip、浏览器等方式绕过判断。

0x03 反爬实战

以上是小编我自己想到的两种反爬的手段,比较入门成本也比较低,但是缺点也很明显,喜欢折腾的可以深入完善一下,如果比较懒得,可以试一下阿里云的web应用防火墙(WAF),既能保护网站安全,还能通过自定义策略来实现反爬。
web应用防火墙官方介绍:
https://www.aliyun.com/product/waf?source=5176.11533457&userCode=7fhdgnci

网站接入Web应用防火墙后,您可以为其开启自定义防护策略功能。自定义防护策略允许您自定义基于精确匹配条件的访问控制规则和访问频率限制规则。自定义防护策略支持随业务场景定制,可用于盗链防护、网站管理后台保护等场景。您可以根据实际需求配置自定义规则。

通过WAF的acl访问规则进行限制

通过设置WAF自定义防护策略,您可以灵活地结合User-Agent和URL等关键字段来过滤恶意爬虫请求。

  1. 在控制台的自定义防护策略页面配置以下ACL访问控制规则,只放行百度爬虫,而过滤其他的爬虫请求。


    5c0259ade7c03966c03ca70031ba203c.png
  2. 在控制台的自定义防护策略页面配置以下ACL访问控制规则,禁止任何爬虫访问/userinfo目录下的内容。


    cec3b0694e4ffe7944d288e4172a23a7.png

基于用户行为进行反爬设置

如果发现恶意爬虫请求具有高频的特征,可以使用自定义防护策略的频率设置,针对特定的路径配置基于IP的访问频率的检测和阻断规则。
例如:您可以在控制台的自定义防护策略页面配置以下规则,当一个IP在30秒内访问当前域名下任意路径的次数超过1000次,则封禁该IP的请求10个小时。


409593fd9fca2c9abf2becfedcee7a3b.png

防止误伤的策略

前面也说过,这两种反爬思路都会有一定的误伤可能,针对此种情况,如果误伤,可能就会导致一名忠实访客的流失,对于运营来说,尽可能的减少误伤也是必须要考虑的一个方面,阿里云的WAF也提供了一种防止误伤判断的方式:

可以在频率设置中使用除IP和Session外的自定义统计对象字段,设置更细粒度、更多维度的限速功能。例如,由于针对IP的封禁会影响NAT出口,您可以使用cookie或者业务中自带的用户级别参数作为统计对象。下图配置针对业务中标记用户的cookie(假设cookie格式为uid=12345)进行统计,并使用滑块作为处置动作,避免误拦截。

说直白点就是用过cookie或者session来判断用户行为,如果疑似爬虫,便使用滑块验证码进行验证,如果是真实访客,则放行,如果过不了验证码,那么再进行拦截,从而减少误伤。


37c4f3d8c4650abf97ab722e880d7425.png

对于初次上云或者有反爬需求的企业来说,使用阿里云的WAF是一个不错的安全,既能增强网站的安全性,也极大的提高了隐私和版权。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容