1. 主要解决的问题
该文章主要解决了加密数据的多关键字搜索问题。作者提出了一种隐私保护的多关键字文本搜索(multi-keyword text search,MTS)策略,并且可实现相似度排序。
作者通过基于关键字频率建立的index以及基于余弦相似测量生成的向量空间模型,来实现了多关键字相似度排序。并且为了提高搜索效率,在Index的实现上,采用了类似B-Tree的MDB-Tree[1](多维B-Tree)来实现。
2. 背景分析
在明文数据搜索中,通过向量空间的余弦测量来进行相似度分析是非常常用的方式,比如,通过协调(term frequency,TF)*(inverse document frequency,IDF)的权重来评估一个搜索请求和文档的相似度。但是,inverted index暂时还没能用在基于term frequency的多关键字加密搜索中,本文主要实现了这个。
此外,现有的基于密文的搜索方案,分为两大类,public key crytopgraphy以及symmetric key crytography。另外还有着重在搜索结果排序的方案。但这些方案都没有实现多关键字搜索,或者就是效率太低O(N)。 本文通过利用MDB-Tree使得效率得到了提高。
3. 论文主要思想
作者提出了两个解决方案,BMTS和EMTS,后者为前者的增强方案。
在BMTS方案中,由用户自己生成密钥Ski,包括一个随机向量Si,和两个可逆矩阵M1,i,M2,i,即[Ski,M1,i,M2,i],通过该密钥对文件Dc进行加密;采用相似的方法对查询关键字Q也进行加密。在服务器中通过余弦测量的方式,可以得到相似度的排序。
EMTS方案是对BMTS方案的提高,因为BMTS方案中特定的相似性分布会使得服务器判断出keyword,即暴露了keyword的安全性,因此EMTS方案在加密文件时增加了一个参数,使得计算相似性分布时,每个分布的形态都类似,而在用户端可以恢复这种分布,因此也可以得到top-k的相似度排序结果,并且保护了keyword的安全性。
4. 优缺点分析
该方法实现了多关键字搜索,但是最坏的搜索时间仍然需要O(N)的时间,另外本文实现了Index,Query的机密性保护,以及search pattern的保护,增强方案中还实现了对keyword privacy的保护。
5. 参考文献
[1] P. Scheuermann and M. Ouksel. Multidimensional b-trees for associative searching in database systems.
Information systems, 7(2):123–137, 1982.