今日头条推荐算法

引用来自:http://36kr.com/p/5114077.html

推荐系统:需要三个维度的变量

第一个维度:内容:提取不同内容特征做好推荐,比如主题词,关键词,兴趣标签,热度,作者来源,相似文章等等

第二个维度:用户特征:兴趣标签,职业,年龄,性别,用户行为等

第三个维度:环境特诊:地理位置,时间,网络,天气

可直接量化的目标:点击率,阅读时间,点赞,评论,转发

不可量化的目标 :广告的频控,标题党,低俗内容打压,置顶重要新闻,低级别账号内容降权



典型的推荐特征:

相关性特征,评论内容的属性和用户是否匹配,关键词匹配,分类匹配,主题匹配,来源匹配

环境特征,包括地理位置和时间

热度特征,全局热度,分类热度,主题热度,关键词热度。用户冷启动时候非常有效

协同特征,通过用户行为分析不同用户之间的相似性,比如点击相似,兴趣分类相似,主题相似,兴趣词相似,向量相似,从而扩展模型的探索能力。


协同过滤算法无法解决冷启动问题

今日头条推荐系统主要抽取的文本特征包括以下几类。首先是语义标签类特征,显式为文章打上语义标签。这部分标签是由人定义的特征,每个标签有明确的意义,标签体系是预定义的。此外还有隐式语义特征,主要是topic特征和关键词特征,其中topic特征是对于词概率分布的描述,无明确意义;而关键词特征会基于一些统一特征描述,无明确集合。




最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。