不同领域的内容画像差别比较大,比如电商产品推荐是基于商品价格、类型、品牌等,音乐产品推荐是基于风格、歌手、作曲人等,本篇以新闻资讯类产品为例,分享一下内容画像的构建。
首先,看一张图。
内容推荐系统
一、内容画像的来源
内容画像主要来源于内容本身(内容标签漏斗(垂直领域—细分领域—关键词)、时效性(如股票)、地域信息(如本地新闻)、内容风格(聚类算法))、内容发布者(参考头条指数,包括活跃度、原创度、垂直度、健康度、互动度度等)、用户行为(转发or举报、基于用户的协同推荐)。
二、如何构建内容画像
(1)数据抓取
今日头条数据来源于媒体新闻(合作方)、头条号、自媒体,由抓取系统负责获取。生产的内容放进内容池,经过一些筛选、过滤(低俗内容,先机器再人工),生成固定的格式和唯一的文本id。
(2)文本挖掘
文本挖掘是数据挖掘的一种,最重要最基本的应用是实现文本的分类(有监督)、聚类(无监督)、自动摘要。
分类:基于已有的分类体系,减少搜索成本,采用统计学习或机器学习来实现,如贝叶斯分类、K近邻分类。
聚类:提供大规模文档集内容的总结,减轻浏览相关内容的过程,采用贝叶斯聚类、K近邻聚类等方法。
自动摘要:一类是完全使用原文中的句子来生成文摘,另一类是可以自动生成句子来表达文档的内容。
文本挖掘过程:
(1)获取文本
(2)文本预处理——删除不相关信息
(3)文本的语言学处理——分词(词典、词频统计、字标注)、标注、去除停用词
(4)文本的数学处理——降维、人工挑选影响力大的特征、数学统计处理(tf-idf)
(5)分类聚类——矩阵的分类与聚类
(6)数据可视化
(3)用户反馈
内容画像随着用户的反馈而不断完善,对新内容来说,这个从0到1的过程就是冷启动。从内容本身来说,可以根据用户评论、用户画像来进一步完善;从内容推荐权重来说,如果在冷启动过程中没有足够的正向反馈,就会降低权重,如果有了很高的点击量就会获得更大的推荐权重。