讲了什么?
用户画像,标签挖掘,基于内容推荐
1 用户画像
- 什么是用户画像
用户向量化后就是用户画像,便签,注册资料,社交关系都是稀疏向量;Embedding,svd,主题模型选出来的是稠密向量 - 关键因素
维度自己可以定义
量化每个维度的量化以推荐效果的好坏来反向优化用户画像 - 构建方法
简单原始数据构建,人口统计信息,播放历史
数据统计信息,给物品标签,统计用户在这些标签上的历史行为,从标签维度做数据统计,最后做截断
黑盒,用过潜语义模型用户兴趣,SVD隐因子,深度学习Embedding向量
2 标签挖掘
过程是什么?
分析所有能分析的非结构化内容,结构化后构建高质量的标签库
根据用户行为数据为用户构建高覆盖度和区分度的画像标签库
- 数据从哪儿来
能分析的非结构化内容 - 标签库长什么样
衡量便签度好坏有3个维度覆盖面,健康度,经济性(标签库是否足够简单,不要出现太多语义重复的标签)
对应的解决方法
覆盖面广:挖掘文本,视频,音频,图像标签,用户填写更多资料,跨公司数据打通
分布健康:对比较大的分类,不断细分,是分布更加健康
语义独立:Embedding,隐语义模型,主题模型比较不错
如何构建好的标签库:
分为中心化(专业人员参与)和非中心化(完全依靠用户标签),需要两种相结合,多分类体系,同义标签保留最常用的,去中心化的标签页要专业人员把控质量 - 怎么挖掘标签
关键词提取:TF-IDF TextRank
实体识别:HMM和CRF条件随机场,CRF+BiLSTM,词典方法,人物,位置,著作,影视剧,历史事件和热点事件
内容分类:按照分类体系分类
文本聚类:划分多个类簇,工程上比较难工业化
主题模型:学习主题向量,再预测新的文本在各个主题上的分布
Embedding:Word2vec(CBOW和Skip Gram),GloVe和FastText(学习词的Embedding向量和做短文本分类)
标签选择:卡方检验和信息增益
3 基于内容的推荐
- 内容推荐的好处
新的物品,有助于冷启动 - 两个产出
结构化的内容库
内容分析模型- 分类模型
- 主题模型
- 实体识别模型
- Embedding模型
- 算法
通过相似度算法计算