新的用户、新的内容对推荐系统来说都是没有过往信息量积累的、陌生的、需要通过累积一定的曝光量和互动量来收集基础数据,这个从0到1积累基础数据的过程就是冷启动。
在这个过程中,如果没能得到足够的正面用户反馈,比如点击行为和阅读体验,系统就会认为这篇内容是不受欢迎的,因此,系统会逐渐降低这篇内容的推荐量;反之,内容如果在冷启动的过程中,内容顺利匹配到了目标人群,收获了很高的点击量,就有可能被推荐系统快速放大成为爆款的可能。
在内容提交进入系统时,由于缺乏用户行为反馈,系统更依赖于内容本身的固有属性进行冷启动。基于内容的展示和消费,这些属性可以拆分为内容展现维度和内容消费维度。
内容展现维度是展示给用户的信息,比如标题、封面、作者、发布时间。内容消费维度包含作者层和内容层两个方面:作者层内容消费维度是指作者的粉丝群体更应该看到作者的新内容,一个过往表现好的作者更有可能得到更好的冷启动推荐量;内容消费维度是指分类信息、标签、关键词、命中的实体和话题等,用于判断内容与用户的偏好是否匹配。
在实践中,融资碰到由于冷启动有误导致内容推荐出现偏差的情况。先来看几个例子:
视频标题:普京曾经实习的单位,最厉害的国家狗仔队是如何工作的?
短内容标题:感恩一起战斗的日子,感谢我的战友!
视频标题:堪比电影中出现的场景:死神来了!
看完这三个标题,你觉得每篇大概要讲什么内容?
第一篇的标题,可以提炼出普京、“单位、实习、工作”、“狗仔队”。第二个内容标题,从文本特征上看,可以提炼出“战斗”、“战友”,可能是讲战友情的,暂且归为军事\生活类。第三个标题,基本上命中电影《死神来了》。
但实际呢?第二篇的内容场景是艺人在戏剧杀青后的感言,第三篇的内容是一个人如何幸运地躲开了多车相撞奇迹逃生的场景。可见,冷启动时,内容本身决定了冷启动的效果。
如何优化内容的冷启动呢?还是从展现层和消费层分别着手。在展现层,需要探寻面向不同载体、不同群体的更合适的表现形式。消费层面,一方面需要尽可能挖掘和完善不同载体的特征、权重,另一方面,也需要从作者层面着手,引导作者主动完善内容信息。