登录注册写文章

推荐系统陈开江 - C3 内容推荐

推荐系统陈开江 - C3 内容推荐

讲了什么？
用户画像，标签挖掘，基于内容推荐

1 用户画像

什么是用户画像
用户向量化后就是用户画像，便签，注册资料，社交关系都是稀疏向量；Embedding，svd，主题模型选出来的是稠密向量
关键因素
维度自己可以定义
量化每个维度的量化以推荐效果的好坏来反向优化用户画像
构建方法
简单原始数据构建，人口统计信息，播放历史
数据统计信息，给物品标签，统计用户在这些标签上的历史行为，从标签维度做数据统计，最后做截断
黑盒，用过潜语义模型用户兴趣，SVD隐因子，深度学习Embedding向量

2 标签挖掘

过程是什么？
分析所有能分析的非结构化内容，结构化后构建高质量的标签库
根据用户行为数据为用户构建高覆盖度和区分度的画像标签库

数据从哪儿来
能分析的非结构化内容
标签库长什么样
衡量便签度好坏有3个维度覆盖面，健康度，经济性（标签库是否足够简单，不要出现太多语义重复的标签）
对应的解决方法
覆盖面广：挖掘文本，视频，音频，图像标签，用户填写更多资料，跨公司数据打通
分布健康：对比较大的分类，不断细分，是分布更加健康
语义独立：Embedding，隐语义模型，主题模型比较不错
如何构建好的标签库：
分为中心化（专业人员参与）和非中心化（完全依靠用户标签），需要两种相结合，多分类体系，同义标签保留最常用的，去中心化的标签页要专业人员把控质量
怎么挖掘标签
关键词提取：TF-IDF TextRank
实体识别：HMM和CRF条件随机场，CRF+BiLSTM，词典方法，人物，位置，著作，影视剧，历史事件和热点事件
内容分类：按照分类体系分类
文本聚类：划分多个类簇，工程上比较难工业化
主题模型：学习主题向量，再预测新的文本在各个主题上的分布
Embedding：Word2vec（CBOW和Skip Gram），GloVe和FastText（学习词的Embedding向量和做短文本分类）
标签选择：卡方检验和信息增益

3 基于内容的推荐

内容推荐的好处
新的物品，有助于冷启动
两个产出
结构化的内容库
内容分析模型
- 分类模型
- 主题模型
- 实体识别模型
- Embedding模型
算法
通过相似度算法计算

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

浅谈智能搜索和对话式OS
前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章，甚至之后...
我偏笑_NSNirvana阅读 14,440评论 2赞 64
推荐系统（2）-架构
业务架构由前文可以看出，推荐系统的本质就是拟合一个用户满意度的函数y=（Xi，Xu，Xc）函数结果受主要受内容...
沉默的羔洋阅读 1,366评论 0赞 10

推荐系统遇上深度学习(二十六)--知识图谱与推荐系统结合之DKN模型原理及实现
在本系列的上一篇中，我们大致介绍了一下知识图谱在推荐系统中的一些应用，我们最后讲到知识图谱特征学习(Knowled...
文哥的学习日记阅读 23,414评论 3赞 66
自然语言处理神经网络模型入门
主要内容自然语言输入编码前馈网络卷积网络循环网络(recurrent networks ) 递归网络(re...
JackHorse阅读 4,488评论 0赞 2
当你打开天猫的那一刻，推荐系统做了哪些工作？
当年打开天猫的那一刻，它为你完成了华丽的变身，成为世上独一无二的“天猫”，这就是智能推荐的力量。今天，来自阿里巴巴...
龙_4e65阅读 689评论 0赞 2

友情链接更多精彩内容

赞1赞

赞赏

手机看全文