2016年11月,Alexa在推特上承认,他们已经停止发布拥有100万个最受欢迎域名的CSV文件。
我经常建议分析师在进行威胁搜索或网络取证时,使用Alexa列表作为白名单,从他们的PCAP数据集中删除“正常”的web冲浪。而且,正如前面提到的,NetworkMiner和CapLoader都使用Alexa列表来简化域白名单。因此,我决定评估一下Alexa和Umbrella列表中到底有多少恶意域。
上述结果表明,Alexa和Umbrella包含的恶意域数量大致相同。百分比还显示,使用Alexa或Umbrella作为白名单,即忽略前100万个域名的所有流量,可能会导致忽略多达1%流向恶意域名的流量。我想这是一个可以接受的假阴性的数量,因为像冲洗重复入侵检测这样的技术并不是要取代传统的入侵检测系统,而是要作为一种补充来使用,以便追踪您的IDS未能检测到的入侵。处理包含99%恶意流量的数据集是一个可以接受的代价,因为删除了所有流向100万个最流行域名的“正常”流量。
(1)子域
这两个列表的一个显著区别是,Umbrella列表包含子域名(如www.google.com、safebrowsing.google.com和accounts.google.com),而Alexa列表只包含主域名(如“google.com”)。事实上,这个Umbrella列表仅google.com就包含了1800多个子域名!这意味着与Alexa列表中的100万个主域相比,Umbrella列表实际上包含更少的主域。我们估计,如果您只对主域感兴趣,那么Umbrella列表中大约有一半的域是冗余的。但是,如果您需要匹配完整的域名而不仅仅是主域名,那么拥有子域名可能是一项资产。
这两个列表以不同的方式编译,根据您所分析的流量类型,了解这一点非常重要。Alexa主要接收安装了Alexa众多浏览器扩展之一(如上图所示的Alexa浏览器工具栏)的用户的web浏览数据。它们还从访问包含Alexa跟踪脚本的网站的用户那里收集额外数据。
另一方面,思科伞(Cisco Umbrella)则根据“全球网络用户在全球范围内对域名的实际使用情况”汇编数据。我们猜测这意味着通过最近被思科收购的OpenDNS服务发送DNS查询来构建统计数据。
这意味着,如果只分析来自web浏览器的HTTP流量,那么Alexa列表可能更适合,而如果分析的是非HTTP流量或不是由浏览器生成的HTTP流量(例如HTTP API通信),那么Umbrella列表可能是最佳选择。
(2)其他怪癖
正如Greg Ferro所指出的,伞状列表包含测试域,如“www.example.com”。这些域不在Alexa列表中。
我们还注意到,Umbrella列表中包含几个具有非授权通用顶级域名的域,例如 “.home”, “.mail” 和 “.corp”。另一方面,Alexa列表似乎只包含真实的域名。
(3)资源和原始数据
Alexa和Cisco的top 100万列表都是CSV文件,名为top-1m. CSV。CSV档案可从以下网址下载:
Alexa:http://s3.amazonaws.com/alexa-static/top-1m.csv.zip
Umbrella:http://s3-us-west-1.amazonaws.com/umbrella-static/top-1m.csv.zip
本文分析结果基于Alexa和Umbrella在2017年3月31日下载的top-1m.csv文件。恶意软件的域名列表也在同一天从三个不同的来源下载。
为了提高透明度,我们决定共享“假阴性”(Alexa和伞状列表中出现的恶意软件域)。你可以从这里下载所有错误否定的名单:
https://www.netresec.com/files/alexa-umbrella-malware-domains_170331.zip