推荐系统陈开江 - C3 内容推荐

讲了什么?
用户画像,标签挖掘,基于内容推荐

1 用户画像

  • 什么是用户画像
    用户向量化后就是用户画像,便签,注册资料,社交关系都是稀疏向量;Embedding,svd,主题模型选出来的是稠密向量
  • 关键因素
    维度自己可以定义
    量化每个维度的量化以推荐效果的好坏来反向优化用户画像
  • 构建方法
    简单原始数据构建,人口统计信息,播放历史
    数据统计信息,给物品标签,统计用户在这些标签上的历史行为,从标签维度做数据统计,最后做截断
    黑盒,用过潜语义模型用户兴趣,SVD隐因子,深度学习Embedding向量

2 标签挖掘

过程是什么?
分析所有能分析的非结构化内容,结构化后构建高质量的标签库
根据用户行为数据为用户构建高覆盖度和区分度的画像标签库

  • 数据从哪儿来
    能分析的非结构化内容
  • 标签库长什么样
    衡量便签度好坏有3个维度覆盖面,健康度,经济性(标签库是否足够简单,不要出现太多语义重复的标签)
    对应的解决方法
    覆盖面广:挖掘文本,视频,音频,图像标签,用户填写更多资料,跨公司数据打通
    分布健康:对比较大的分类,不断细分,是分布更加健康
    语义独立:Embedding,隐语义模型,主题模型比较不错
    如何构建好的标签库:
    分为中心化(专业人员参与)和非中心化(完全依靠用户标签),需要两种相结合,多分类体系,同义标签保留最常用的,去中心化的标签页要专业人员把控质量
  • 怎么挖掘标签
    关键词提取:TF-IDF TextRank
    实体识别:HMM和CRF条件随机场,CRF+BiLSTM,词典方法,人物,位置,著作,影视剧,历史事件和热点事件
    内容分类:按照分类体系分类
    文本聚类:划分多个类簇,工程上比较难工业化
    主题模型:学习主题向量,再预测新的文本在各个主题上的分布
    Embedding:Word2vec(CBOW和Skip Gram),GloVe和FastText(学习词的Embedding向量和做短文本分类)
    标签选择:卡方检验和信息增益

3 基于内容的推荐

  • 内容推荐的好处
    新的物品,有助于冷启动
  • 两个产出
    结构化的内容库
    内容分析模型
    • 分类模型
    • 主题模型
    • 实体识别模型
    • Embedding模型
  • 算法
    通过相似度算法计算
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容