网盾–高危网址检出引擎设计和构架

网盾 – 高危网址检出引擎设计和构架

1、 高危网址

        所谓高危网址,是指用户通过浏览器或类浏览器软件访问一个网址后,影响用户正常使用预期功能。传播方式一是将假冒网站地址发送到客户的电脑上或放在搜索网站上诱骗客户登录,窃取客户信息;二是通过手机短信、 邮箱等,冒充银行名义发送诈骗短信,诱骗客户登录假冒网站;三是建立假冒电子商务网站,通过假的支付页面窃取客户网上银行信息。包含且不完全包括以下两种情况:

        1) 钓鱼网站

         网站内容与被仿冒对象网站内容雷同或相似的,目的是窃取用户信息;网站内容存在误导访问者的可能性,且所使用域名与被仿冒对象所使用域名相同或相似,目的是窃取用户信息;网站内容存在误导访问者的可能性,且网站所使用域名为被仿冒对象的商号、标识或其他与被仿冒对象存在高度对应关系的内容,目的是窃取用户信息;

          2)传播病毒木马

        这里,分为主动的挂载木马和被动。主动是指,该网址上的木马是该网址后台拥有者内置的;被动是指,木马是网址服务器被攻击者攻破后被移植其中的。

          1.1 按作案方式分,高危网址分为

           1) 假冒

           假冒网站的主要表现形式有两种:一是假冒网站的网址与真 网站网址较为接近;二是假冒网 站的页面形式和内容与真网站较为相似。攻击对象较为随机,多数以直接获取经济利益为目的。

             2)诈骗

              诈骗的表现形式,一般是通过某个人的信息,伪装并获取其周围人的信任,从而达到其非法的目的。

            3)钓鱼

            钓鱼的表现形式一般是针对某些有固定行为特征的群体,比如网银、qq、视频聊天等网站的用户。除了直接获取经济利益外,钓鱼网站的站长还会将收集到的用户数据打包共享,或者直接拍卖。

        1.2 按行业种类分

             1) 博彩

              2) 伪装qq

             3) 虚假医疗

             4) 在线色情

             5) 行业在线

             6) 银行

             7) 其他

2、 检出系统1.0


3、 逃避查杀的主要方式

          3.1 屏蔽爬虫Ip

          3.2 有依赖的跳转

          3.3 文字内容图片化

           3.4 加密隐藏

            3.5 流媒体

            3.6 填充干扰

             3.7 云配置

            3.8 无线路由

4、 key

          4.1 浏览器和爬虫的差异

          4.2 人和机器的差异

          4.3 机器和机器环境的差异

5、 架构

          5.1 设计思路

          尽可能解决上述三个难点,并发、计算和存储资源的合理调度。

5.2 架构

         5.3 难点和瓶颈

                  爬虫:网页获取能力

                 引擎:网页判定能力

         5.4 爬虫

                  1)全规则爬虫

                  2)定点爬虫

6、 检测引擎

          6.1 种类

                  1)规则引擎

                  2)相似度引擎

                  3)算法引擎

                  4)云日志分析引擎  

                   5)协同引擎

         6.2 算法

                    1)样本

                    训练数据的获取(人工及人工规则检出, 第三方数据抓取)

                    2)降噪

                     人工

                     升维 - 过滤器

                    3)维度

                     网页内容特征

                      网页结构特征

                      网页行为特征

                      降维

                      4)模型

                       朴素贝叶斯

                         最大熵

                         相似度 ssdeep

                        svm

                         dnn

        6.3 风险

                1)误报

                2)热度回归

                3)舆情监控

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 搜索引擎优化(Search engine optimization,简称SEO),指为了提升网页在搜索引擎自然搜索...
    翻滚吧海阔天空阅读 4,028评论 5 14
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,287评论 25 708
  • 近日读书总结了一些规律,与大家分享。 女主角高贵美丽,偏偏被坏人抓去或者被巫婆下蛊,同样高贵而潇洒无边的男主角仗剑...
    左岸渡己阅读 209评论 2 2
  • 大家都说她的女儿长的不如她好看,她母亲每次听到这话就很生气,说,好看有什么用,安安稳稳比什么都强。 公允地说,她的...
    枕麦阅读 388评论 0 0
  • 关行,从龙江行提职来到我们行,大概也就一个月的时间,但他的人格魅力深深吸引着我。 他为人和善,没有领导的架子,他工...
    方芳爱成长阅读 754评论 0 50