时间上下文
时间信息对用户兴趣的影响表现在以下几个方面:
①用户兴趣是变化的;
②物品也是有生命周期的;
③季节效应
给定数据集后,可以通过统计以下信息研究系统的时间特性:
①数据集每天独立用户数的增长情况;
②系统的物品变化情况;
③用户访问情况(统计用户的平均活跃天数,或者相隔T天来系统的用户的重合度)
物品的生存周期
①物品平均在线天数:
如图所示,纽约时报等新闻类网站时效性很强,每条新闻热起来快,冷下去也快,维基百科则不同:
②相隔T天系统物品流行度向量的平均相似度:
纽约时报的数据集中,相似度下降很快,说明系统的物品流行度分布变化很快,系统时效性很强。
推荐系统的实时性
实现推荐系统的实时性除了对用户行为的存取有实时性要求,还要求推荐系统算法本身具有实时性,而推荐算法本身的实时性意味着:
①要求在每个用户访问推荐系统时,都根据用户这个时间点前的行为实时计算推荐列表;
②推荐算法需要平衡用户的近期行为和长期行为,既要让推荐列表反应出用户近期行为体现的兴趣变化,又不能让推荐列表完全受用户近期行为的影响,要保证推荐列表对用户兴趣预测的延续性
推荐系统的时间多样性
提高推荐系统的时间多样性需要分两步解决:首先,需要保证推荐系统能够在用户有了解的行为后及时调整推荐结果,使推荐结果满足用户最近的兴趣;其次,需要保证推荐系统在用户没有新的行为时也能够经常变化一下结果,具有一定的时间多样性
对于第一步,又可以分成两种情况进行分析:
第一是从推荐系统实时性角度分析;第二即使是实时推荐系统,由于使用的算法不同,也具有不同的时间多样性。
给用户推荐结果增加多样性的思路:
①增加随机性;
②将用户每天经常看的内容降权;
③每天给用户使用不同的推荐算法
时间上下文推荐算法
1.最近最热门
给定时间T,物品i最近流行度ni(T)可以定义为:
α是时间衰减参数
代码如下:
def RecnetPopularity(records, alpha, T):
ret = dict()
for user, item, tm in records:
if tm >= T:
continue
addToDict(ret, item, 1/(1.0+alpha*(T - tm)))
return ret
我们还可以考虑时间信息对结果的影响,一般来说,用户现在的行为应该和用户最近的行为关系很大,因此,我们可以通过以下修正公式:
其中,t0是当前时间,tuj越靠近t0,在用户u的推荐列表中获得越高的排名。β是时间衰减参数,需要根据不同的数据集选择合适的值
时间上下文相关的UserCF算法
可以利用时间信息改进:
用户u和v对物品i
产生行为的时间越远,那么相似度越小
得到用户相似度以后,可以通过如下公式预测用户对物品的兴趣:
其中,S(u,K)包含了和用户兴趣最接近的K个用户。如果用户v对物品i产生过行为,那么rvi=1,否则rvi=0
如果考虑和用户u兴趣相似用户的最近兴趣,我们可以设计如下公式:
时间段图模型
时间段图模型G(U,Su,I,Si,E,w,σ)为二分图,U是用户节点集合,Su是用户时间段节点集合。E是边集合,它包含了3种边:(1)如果用户u对物品i有行为,那么存在边e(vu,vi)∈E;(2)如果用户u在t时刻对物品i有行为,那么就存在两条边e(vut,vi),e(vu,vut)∈E。w(e)定义了边的权重,σ(e)定义了顶点的权重
路径融合算法首先提取出两个顶点之间长度小于一个阈值的所有路径,融合根据每条路径经过的顶点给每条路径赋予一定的权重,最后将两个顶点之间所有路径的权重之和作为两个顶点的相关度
假设P={v1,v2,...,vn}是一条路径,这条路径的权重取决于经过的所有的顶点和边:
这里的out(v)是顶点v指向顶点集合,|out(v)|是顶点v的出度,σ(vi)∈(0,1]定义了顶点的权重,w(vi,vi+1)∈(0,1]定义了边e(vi,vi+1)的权重。
在定义了一条路径的权重后,就可以定义顶点之间的相关度。对于顶点v和v',令p(v,v',K)为这两个顶点间距离小于K的所有路径,那么这两个顶点之间的相关度可以定义为:
对于时间段图模型,所有边的权重都定义为1,而顶点的权重σ(v)定义如下:
这里α和β是两个参数,控制了不同顶点的权重
根据书中离线试验显示,时效性强的数据集算法又明显提升,诸如Wikipedia则没有明显区分
地点上下文信息
LARS通过研究数据集发现,不同地理位置的人用户兴趣差距较大。45%的用户活动范围而不超过10英里,75%的用户活动范围不超过50英里。因此不能给用户推荐太远的地方。