现在我们正在处于一个信息爆炸的时代,每天会产生千万量级的信息。但每天的时间也没有变成24+1个小时,加上碎片化时间的消费,让内容能够精准投放是至关重要的。2017年也可以说是人工智能的爆发之年,各个公司也都开始有了人工智能实验室,共同探索属于未来的事情。不管是智能音响还是语音助手,大家的目的都是为了通过了解用户的偏好和兴趣等。帮助用户省下时间,来做更多的事情,像是有一个更懂自己的贴身秘书,可以帮助自己做完筛选的准备工作。
从之前的web1.0时代到3.0时代,给用户推送准确的内容都是重点。根据资料及个人理解整理归纳推荐内容可以分为三个步骤:初步建立用户画像、根据策略推荐内容、合理高效的方式展现。
初步建立用户画像
在一个新用户进入APP后,处于冷启动阶段,通过获得用户的基础信息进行用户模型初步建立,如性别、年龄、职业、城市、喜好类型等等,用户属性数据。获取的步骤称之为新手引导,通过给用户进行首次标记,进行初步内容推荐,降低冷启动时推荐内容的无关性。
这一步,大概了解用户喜欢什么,距离准确的推送给用户需要的内容,只是迈出了第一步。举个例子,在给用户推荐手机的时候,有惊艳的亮蓝色、也有稳重的亮黑色,用户可能会说,蓝色真的是太好看了。但是,在最后带走的却是一步黑色的手机。所以用户在最终行为动作前,所产生的行为具有一定的偏差性。放在内容筛选上来说,以音乐APP为例,当用户选择90后、男生、国语的属性后,推送的内容在实际使用场景中,不一定能达到预期效果。
此时,需要进行第二步,根据用户行为数据不断完善用户模型。包括不限于用户使用APP过程中前端埋点数据、后端日志数据、行为偏好等。
通过这两步,就能大体上刻画出用户画像,但是用户画像具有很强的动态性,所以用户画像也需要不断学习,不断的完善,具体刻画用户画像的步骤可查看用户画像构建相关资料。
根据策略推荐内容
给不同的用户推荐不同内容的策略常用的有多种方式,在不同的产品类型中,应用的组合方式也有差异,下面介绍几种常见的推荐方法。
基于人口统计学推荐
基于人口统计学的推荐(Demographic-based Recommendation)是一种实现成本较低的推荐方法,根据用户属性的基本信息发现用户之间的相似程度,然后将相似用户喜爱的内容进行推荐。
在这个过程中,根据每个用户自己的用户属性,系统建立每个用户的模型。然后根据用户属性计算相似度。若看到用户A的和用户C相似,那么会认为用户A和C是相似用户,可以称他们是“邻居”;最后,基于“邻居”用户群的喜好推荐给当前用户对应的内容。
优点:因无需使用用户的喜好历史数据,可以解决新用户来“冷启动”的问题。这个方法不依赖于项目本身的数据,所以这个方法在不同项目的领域都可以使用,它是领域独立的。
缺点:基于用户属性信息对用户进行分类的方法过于粗糙,尤其在对于更为垂直的的领域,比如图书,电影和音乐等,无法得到很好的推荐效果。在首批用户进行推荐时,对内容项目进行分类的基础数据,都是依靠运营进行人为划分,在精度方面存在较大影响。另外,在涉及到过于敏感或隐私的内容信息,获取成本比较高,就会导致低于用户期望值。
基于内容的推荐
基于内容的推荐(Content-based Recommendation),核心思想是根据内容的元数据,建立关键词或Tag等标记,并根据其相关性建立对应关系。在内容分发过程中,再利用用户画像中的属性,进行匹配推荐。这个方法虽过于主观性,但可以很好的在内容层面建模用户的偏好,不会出现喜欢摇滚的用户,被推荐民谣。此推荐方法多用于一些资讯内容类的应用上。
优点:易于实现,不需要用户属性数据,减少冷启动的问题。根据内容的相关度匹配,维度单一,不会出现热门过热,冷门无人的情况。
缺点:人为分类进行标注,在推荐的精度及广度方面难免有缺陷,导致推荐的内容不够准确;
系统抽取的特征标注,需要保证准确性又要具有一定的实际意义,都则推荐结果相关性会降低。
基于协同过滤的推荐
协同过滤(Collaborative Filtering-based Recommendation)是一种在推荐系统中广泛采用的推荐方法,被视为利用集体智慧的典范,是基于“物以类聚,人以群分”的假设。主要包括三个推荐维度,基于用户的推荐、基于项目的推荐和基于模型的推荐。
基于用户的推荐
基于用户的协同过滤推荐的基本原理是,根据所有用户对内容的偏好,发现与当前用户偏好相似的“邻居”用户群,基于这些邻居的的历史偏好信息,为当前用户进行推荐。
优点:推荐内容可能完全不相关,因此可以发现用户的潜在兴趣,并且针对每个用户生成其个性化的推荐结果。
缺点:用户的增长速度都远大于项目的增长速度,因此其计算量的增长巨大,系统性能容易成为瓶颈,一般基于用户的协同过滤系统与其他机制配合使用。
基于用户的协同过滤推荐和基于人口统计学的推荐对比:
相同点:都是计算用户的相似度,并基于“邻居”用户群计算推荐;
不同点:基于人口统计学的机制只考虑用户本身的特征,而基于用户的协同过滤机制可是在用户的历史偏好的数据上计算用户的相似度,它的基本假设是,喜欢类似项目的用户可能有相同或者相似的口味和偏好。
基于项目的推荐
基于项目的协同过滤和基于用户的协同过滤相似,其使用的是所有用户对项目的偏好信息,发现Item之间的相似度,然后根据用户的历史偏好信息,将Item推荐给用户。
基于项目的协同过滤推荐和基于内容的推荐对比:
相同点:都是基于项目相似度预测推荐,只是相似度计算的方法不一样;
不同点:前者是从用户历史的偏好推断,而后者是基于项目本身的属性特征信息。
在基于用户和基于项目两个协同过滤策略中应如何选择?
同基于用户的推荐相比,基于项目的推荐应用更为广泛,扩展性和算法性能更好。由于项目的增长速度一般较为平缓,因此性能变化不大。缺点就是无法提供个性化的推荐结果。在用户数与项目数的比例不同时,选择的主要推荐方式不同。项目数>用户数,优先采用基于用户协同过滤;项目数<用户数,优先采用项目协同过滤。
项目的个数是远远小于用户的数量的,而且项目的个数和相似度相对比较稳定;同时基于项目的机制比基于用户的实时性更好。但也不是所有的场景都是这样的情况,在一些新闻推荐系统中,也许项目,也就是新闻的个数可能大于用户的个数,而且新闻的更新程度也有很快,所以它的相似度依然不稳定。所以,推荐策略的选择其实也和具体的应用场景有很大的关系。
因为基于协同过滤的推荐机制不需要对项目或用户进行严格的建模,直接对比项目之间的相似度,不要求机器可理解项目描述。这种方法计算出来的推荐是开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好。因此,也是现在应用广泛的推荐机制。
不足之处在于核心是基于历史数据,所以对新项目和新用户都有“冷启动”的问题;推荐的准确性,依赖于用户历史偏好数据与用户总数的量级;
基于关联规则的推荐
基于关联规则的推荐更常见于电商中,并且转换率较高。其实际的意义为购买了一些产品的用户更倾向于购买另一些产品。基于关联规则的推荐的首要目标是挖掘出不同产品之间的关联规则,也就是同时被很多用户购买的产品组合集,这些集合内的产品可以相互进行推荐。
合理高效的展现方式
在计算出用户可能喜欢的内容的时候,用什么样的方式展现给用户,从而进一步提升用户体验,提高推荐内容的二次消费,就是第三步需要做的事情。
在众多APP中,每一个都有多个页面,每个页面里面有多种多样的推荐位置。根据产品的功能定位、用户的操作习惯、用户行为的相关程度等维度进行筛选。将适合的内容放在更适合的位置,并根据用户的使用行为不断的完善用户画像,调整投放策略,才能让用户使用效率得到保障。
在刚过去的双十一中,我们每个人的天猫APPbanner图可能都是完全不一样的。因为只需要输入主题类型,阿里的人工智能设计系统“鲁班”就会生成上万张不同的素材,根据主题和消费者特征进行个性化呈现,真正的实现了千人千面。这也让资源位点击率翻了一倍多。
总结
推荐方法有很多种,不同的推荐机制适用的场景都会有所差异,在推荐准确性方面也会有差距。因此一般情况下在搭建推荐系统的时候,不会单纯的采用某一种推荐机制,常常将各种方法混合在一起,互相弥补短板,从而达到更好的推荐效果。
在知道了给用户推荐什么样的内容后,随着时间的增长,符合用户偏好的的内容会越来越多,这些内容需要结合时间维度、内容热度等更多的自然维度进行筛选排序,再投放在合适的位置,才能让让用户无感知的情况下帮助用户解决问题。
在信息十分庞大的现在,人工智能的发展也已开始爆发,更先进的方案需要不断的学习和探索。相信在未来的时候,每一个手机ROM就是一个大的APP,在一定程度上可以开放共赢,手机上任何一个软件中使用的信息都可以共享,成为帮助用户的数据,共同让手机变成一个真正的移动助手。