1 介绍
2 基本信息
2.1 Tor上的网站指纹
网站指纹识别(WF)是指尝试通过观察流量跟踪来识别网络浏览客户端的行为(特别是她正在访问的网页)的过程。我们假设客户端使用代理来隐藏她的真实目的地,并使用加密来隐藏她的包内容,因为没有这些基本防御,她就将其目的地泄露给了一个小小的窃听者。 Tor的用户具有这些防御措施。
最近的攻击可以成功地对只具有本地观察能力的攻击者执行网站指纹识别。即攻击者仅观察客户端的流量跟踪而不会受到任何干扰。攻击者位于客户端的网络上,例如客户端的ISP,或者他已经控制了客户端附近的某些路由器。已经提出了需要更多功能的攻击,例如利用主动流量整形策略的攻击[8],远程ping检测[9],有时还涉及对客户端设备进行调整[12]。我们的攻击仅使用本地被动攻击者即可达到高精度。
通常,攻击者的策略如下。攻击者从他有兴趣监视的几个网页中收集数据包跟踪。然后,攻击者观察客户端在Web浏览期间生成的数据包跟踪,并将这些跟踪与他通过执行监督分类收集的跟踪进行比较。我们
请注意以下两个假设,即先前关于WF的所有著作都是针对攻击者的:
1.定义明确的数据包跟踪。假定攻击者知道单个页面加载的数据包跟踪的开始和结束位置。如果客户端在加载当前页面后花费更长的时间加载下一页,则可以证明这一假设是合理的。
2.没有其他活动。我们假设客户端没有执行任何其他可能混淆页面加载行为的活动,例如下载文件。
这些假设在WF上的所有先前工作中都使用过,因为它们简化了问题,但应注意,这些假设对攻击者是有利的。在第8节中,我们将讨论在没有这些假设的情况下攻击者如何进行成功的攻击。
Tor上的网站指纹比简单的SSH或VPN隧道更难[10]。这是因为Tor使用单元格填充,以便在固定大小(512字节)的单元格中发送数据。此外,Tor具有背景噪声(电路结构,SENDME数据包等),会干扰网站指纹[23]。由于Tor具有庞大的用户基础和可以应用防御的广泛体系结构,因此,最近的工作和我们的工作都对攻击和防御Tor感兴趣,特别是因为Tor开发人员仍然不相信网站指纹构成了真正的威胁[19]。
2.2分类
给定一个数据包序列,攻击者将使用分类算法(分类器)来学习客户端的目标网页。攻击者首先收集他有兴趣监视的已知页面(训练集)的数据包序列。这被称为监督训练,因为攻击者知道这些数据包序列的真实标签。我们可以通过将分类器应用于攻击者未在其上训练的数据包序列数据集(测试集)并测量分类器预测的准确性来测试其有效性。
分类器的中心是数据包序列之间的距离的概念。较大的距离表示两个数据包序列不太可能来自同一页面。以前的作者使用了各种距离公式,范围从比较唯一数据包长度的出现次数到Levenshtein距离的变化。使用的距离反映了如何使用功能区分网页。从包序列中显式或隐式地提取这些功能,以将它们相互比较。
我们的攻击基于以下重要观察结果:表示网页的类是多模式的。导致网页变化的因素有很多:网络状况,随机广告和内容,随着时间的推移更新数据以及资源的不可预测顺序。客户端配置也可能会影响页面加载。1攻击者可以通过收集足够的数据以使每种模式具有代表性的元素来处理多模式数据集。例如,攻击者可以收集页面的两种模式,一种用于低带宽连接,而另一种用于高带宽连接。2我们使用为多模式类设计的分类器,针对该类的不同模式不需要彼此有任何关系。