本章将首先介绍推荐系统的外围框架,然后介绍推荐系统的框架,并对架构中每个模块的设计进行深入讨论。
外围架构
推荐系统要发挥强大的作用,除了推荐系统本身,主要还依赖于两个条件——界面展示和用户行为数据。目前流行的界面主要有以下共性:
①通过一定方式展示物品;
②很多推荐界面都提供了推荐理由增加信任度;
③提供一些按钮让用户对推荐结果进行反馈
一般来说,需要实时获取的数据存储在数据库和缓存中,而大规模的非实时地存储在分布式文件系统(如HDFS)中。
推荐系统的架构
推荐系统联系用户和物品的方式主要有三种:
推荐系统的核心任务就被拆解成两部分,一个是如何为给定用户生成特征。另一个是如何根据特征找到物品
推荐系统的推荐任务也有很多种:
①将最新加入的物品推荐给用户;
②将商业上需要宣传的物品推荐给用户;
③给用户推荐不同种类的物品
④给用户混合推荐;
⑤对于不同的产品推荐不同新颖度的物品;
⑥考虑到用户访问推荐系统的上下文
推荐系统需要由多个推荐引擎组成,每个推荐系统负责一类特征和一种任务,推荐系统的任务只是将推荐引擎的结果按照一定权重或者优先级合并、排序然后返回
这样有两个好处:
①可以方便地增加/删除引擎,控制不同引擎对推荐结果的影响。对于绝大多数需求,只需要通过不同的引擎组合实现;
②可以实现推荐引擎接的用户反馈
推荐系统的架构
推荐引擎架构主要包括3部分:
①部分A负责从数据库或者缓存中拿到用户行为数据,通过分析不同行为,生成当前用户的特征向量。不过如果是使用非行为特征,就不需要使用行为提取和分析模块了。该模块的输出是用户特征向量;
②部分B负责将用户的特征向量通过特征-物品相关矩阵转化为初始推荐物品列表;
③部分C负责对初始的推荐列表进行过滤、排名等处理,从而生成最终的推荐结果
一个特征向量由特征以及特征的权重组成,在利用用户行为计算特征向量时需要考虑以下因素:
①用户行为的种类;
②用户行为产生的时间;
③用户行为的次数;
④物品的热门程度
特征-物品相关推荐
候选集集合的目的是保证推荐结果只包含候选物品集合的物品。比如某些产品要求给用户推荐最近一周加入的新物品,那么候选物品就包括最近一周新加的物品
那么为什么不在过滤模块中将候选集合外的电视剧过滤掉?这是为了防止给物品推荐的物品过于热门。
特征-物品相关推荐模块除了给用户返回物品推荐列表,还需要给推荐列表中的推荐结果产生一个解释列表,表明这个物品是因为哪些特征推荐出来的。下面的代码给出了相关推荐模块的大体工作流程:
def RecommendationCore(featrues, related_table):
ret = dict()
for fid, fweitght in featrures.items():
for item, sim in related_table[fid].items():
ret[item].weight += sim*fweight
ret[item].reason[fid] = sim*fweight
return ret
过滤模块
①用户已经产生过行为物品;
②候选物品以外的物品;
③某些质量很差的物品
排名模块
1.新颖性排名
要准确了解用户是否已经知道某个物品是非常困难的,因此我们只能通过某种近似的方式知道,比如对推荐结果中热门的物品进行降权,比如使用如下公式:
2.多样性
第一种提高多样性的方法是将推荐结果按照某种物品的内容属性分成几类,然后在每个类中都选择该类中排名最高的物品组合成最终的推荐列表。这种方法比较简单直观,但是也有严重缺点。首先选择什么样的内容属性进行分类对结果的影响很大。其次,就算选择了某种类别,但物品是否属于某个类别是编辑确定的,但不一定得到用户的公认。
因此第二种提高推荐结果多样性的方法是控制不同推荐结果的推荐理由出现的次数。
下面的代码根据推荐理由增加推荐结果的多样性,这里输入法recommendations是按照权重从大到小排序的,程序中每次拿出一个推荐结果,如果这个结果已经被用过了,就会对推荐结果的权重除以2降权,最终结果将推荐结果重新按照权重从大到小排序:
def ReasonDiversitu(recommendations):
reasons = set()
for i in recommendations:
if i.reason in reasons:
i.weight /= 2
reasons.add(i.reason)
recommendations = sortByWeight(recommendations)
3.时间多样性
时间多样性主要是为了保证用户不要每天来推荐都看到同样的推荐结果。首先要保证推荐系统的实时性,在用户有新行为时实时调整推荐结果以满足用户最近的需求。第二方面是要在用户没有新的行为时,也要保证推荐结果每天都有变化。要实现这一点,只能通过如下方式:
①记录用户每次登陆推荐系统看到的推荐结果;
②将这些结果发回日志系统;
③在用户登陆时拿到用户昨天及之前看过的推荐结果列表,从当前推荐结果中将用户已经看到的推荐结果降权
4.用户反馈
用户反馈模块主要通过分析用户之前和推荐结果的交互日志,预测用户会对什么样的推荐结果比较感兴趣。在推荐系统的点击率预测中可以用如下特征预测用户u会不会点击物品i:
①用户u相关的特征;
②物品i相关的特征;
③物品i在推荐列表中的位置;
④用户之前是否点击过和推荐物品i具有同样推荐解释的其他推荐结果;
⑤用户之前是否点击过和推荐物品i具有同样推荐引擎的其他推荐结果