背景问题
位置签到(check-in)包含位置和语义信息,user在签到的同时,可能泄漏远远超出他们想象的个人信息。
以前研究的不足
utility:可理解为用户体验。
以前有量化用户隐私的,但很少有研究关注用户体验utility的损失。
本文贡献
1. 研究位置签到背后的user动机,基于此,首次提出预测user动机的机器学习方法;
2. 设计了一个utility loss函数,可作为隐私保护方法设计的一个基础;
3. 基于Foursquare用户调查结果,研究了utility和隐私之间的平衡。
原理
在 Foursquare 认真选了 77个用户参与调研。
定义了四种混淆等级:
将utility分级,1-5,1 为“一点也不”,5为“叵费(完美)”。
调研utility情况:
特别的,签到目的影响不小,对于2种混淆对应的utility。
基于签到目的的自动utility预测模型:
特征提取:
1. 结构化的地点信息:用 Foursquare API;
2. 非结构化的文本描述信息: 用 Python NLP toolkit (NLTK 3.0) 提取低级文本特征,朴素贝叶斯分类器通过低级文本特征提取高级文本特征(i.e. 心情)。
3. 混合类型特征:为提取地点信息和文本信息之间的相关性,计算了最长子字符串和Levenshtein距离。
机器学习推测签到目的: 得到签到的特征向量后,用多类(multi-classes)分类器进行分类。经过多重分类器实验,本文选用于本文数据集效果最好的随机森林进行分类。
基于签到目的的utility模型:
定义 utility u = f(m, o, k)∈ [1, 5];
13种签到目的 m ∈ {1, . . . , 13};
混淆 o = (os, og),其中 os, og ∈ {1, 2}(1为low,2为high);
k = (k1, . . . , kn) 是地点特征和用户特征。
首先,使用真实的用户目的,研究utility、混淆和动机的关系;然后,用上述的推测目的,研究三者关系。以此,验证自动推测方法的效果。
同时,也将上线性回归方程与一个非线性模型作对比。(M5P model tree technique [34], by using the WEKA toolkit).
测试结果,详情分析略。