用户网络行为画像(视频推荐领域)
含义:将定性与定量结合在一起的方法,对同一类用户进行不同维度的刻画,定性包含:生活情境、使用场景、用户心智等
定量则对特征进行统计分析和计算。
用户画像数据来源:
- 用户属性,如用户的基本信息:性别、年龄、年收入、兴趣爱好、活跃时间、所在城市等,属于静态数据
- 用户历史记录,属于动态数据
用户画像在推荐系统中的应用:
- 亚马逊:通过浏览物品、购买物品、将物品加入收藏夹和wishlist及评分等用户反馈
- 豆瓣:分析用户“看过”和“想看”列表获取用户的偏好信息
- 新闻:根据读者用户行为习惯和阅读经历为其定制内容
- 信贷:用户画像提供丰富的用户标签体系,如用户的年龄,文化程度,职业,家庭状况,购买习惯,购买能力等用于信贷评分
用户画像建模
1.用户定性画像:标签
(1)如何定义标签:标签名称,标签类别,标签值的取值范围
(2)解释标签:对标签的语义信息进行描述,
(3)推理标签:定义相应的推理规则
(4)验证标签:标签是否合理,标签关系是否一致
针对用户定性画像,主要包含用户维度和视频维度
用户维度:包含用户特征(如姓名,年龄,职业,,,)、用户行为(如历史记录,视频点播,视频浏览记录)、用户兴趣偏好(如观看时间偏好,观看类型偏好)
视频维度:视频特征如(类别,导演,主题...)
群体用户画像:
针对所有用户进行用户画像分析比较困难,所以需要进行群体用户画像分析,根据不同的评估维度和模型算法,通过聚类方式将具有相同特征的用户划分为同一个族群。
1.用户画像获取 :问卷,数据统计
2.用户画像相似度计算 :欧式距离、余弦距离、曼哈顿距离
3.用户画像聚类:kmeans、基于密度、层次化聚类.
4.群体用户画像生成.
用户画像管理
用户画像表现形式:
(1)关键词法:一组代表用户属性的特征词
(2)评分矩阵法:二维矩阵,行表示用户,列表示项目,交叉为打分
(3)向量空间表示法:给出关键词及其权重
(4)本体表示法
用户画像存储方式:
(1)关系型数据库
(2)非关系型数据库:
a.键值存储数据库:redis
b.列存储数据库:HBase
c.文档型数据库:MongoDb
d.图形数据库: Neo4J
推荐系统用户画像数据量大,主要针对少数列进行查询,对列的操作不会导致对全表的数据操作,添加删除相应的列不会遇到数据碎片等诸多好处,因此列式数据库更加适合用户画像的批量数据处理和即时查询,对海量数据进行处理时具有很大的优势。
(3)数据仓库:hadoop、spark。
公众号:netrookie
原文:http://netrookie.cn/personas/