推荐系统学习笔记
第一章节 概念与思维
什么时候需要用有推荐系统
推荐系统常见的问题模式(主要做什么的)
1.预测问题模式
评分预测
行为预测
2常见难题
冷启动问题
EE问题:探索和利用问题(exploration and exploitation)
安全问题
需要有的思维模式
1. 关键元素
UI UE
数据
领域知识
算法
2.思维模式
目标思维
要给推荐系统一个目标去让系统优化迭代
注意点
区分目标 VS 手段
给推荐系统提的应该是目标,而非具体手段
需要目标同时也需要知道限制性条件
比如 点击率 、 多样性
不确定性思维
用概率性看待结果,而不是因果关系
第二章 产品漫谈
1.推荐系统的价值和成本
更好的连接内容和用户
成本
人员构成成本
算法工程师+架构设计师;高级+初级梯度搭配
硬件成本
2.feed流的历史
社交动态信息流——>图文信息流——>视频信息流
配套设施
内容源
广告系统
将推荐系统的用户注意里变现
feed流是个半衰期较长的注意力存储器
其放射性核的数目衰变到原有的一半所需的时间。是放射性元素的一个特性常数,
一般不随元素质量的多少、外界条件的变化以及元素所处状态的不同而改变。
第三章 内容推荐
1. 用户画像【user profile】
用户画像是给推荐系统用的,所以需要向量化?
用户画像不是推荐系统的目的,是推荐系统关键环节中的一个副产品
用户画像如果不向量化,无法计算?
不是也需要一些显式画像么?要不然推荐冷启动怎么做?
用户画像的量化不应该主观,应该根据使用效果(排序好坏、召回覆盖等指标)来指导用户画像量化
类型
稀疏向量
标签
注册信息等
稠密向量
训练神经网络拿到的embedding向量
通过矩阵分解得到的隐因子
通过浅层语义分析或者话题模型得到的话题分布
关键元素
维度
量化
用户画像构建
1.查户口
获取常规人口统计学意义上画像信息
如年龄性别嗯
2.堆数据
根据用户的一些历史行为进行加工获取
如根据用户感兴趣的物品标签,代表用户兴趣标签
3.黑盒子
用机器学习的方式,学习出人类无法理解的稠密向量
2.标签挖掘方式
挖掘来源
用户层面
注册资料信息
自己发布的的动态信息
有相关行为的物料信息
物品层面
物品标题、描述
好的标签库的标准
覆盖面广
要对大部分视频都能覆盖到标签
健康性?
标签平均覆盖物品的程度
齐普夫定律?
好的标签库,标签覆盖分布熵要高,熵越高分布越均匀
相似性
(高内聚,低耦合)
同一个标签内容都是相似的,不同标签之间有差别
问题
多分类体系怎么说?就一定是标签系统本身的问题?
也即一个item可用同一套分类体系的多个分类去同时表达
如何建设标签库
中心化+去中心化相结合
标签挖掘方式
目的
将非结构化的文本信息挖掘为结构化的标签信息,以方便计算机进行向量化计算
NLP方式
关键词提取
无监督方式
TF-IDF
来源于检索领域
更适用于长文本
核心思想:如果一个词语出现频率高的重要,但是都出现的不重要
计算方式
1. 统计TF
2.计算IDF
=log(N/n+1)
N有多少个文本
n= 统计某个词出现了多少次在文本中
3. 将TFIDF,得出每个词的权重
4.根据权重筛选关键词
常用方式
1. 取top k
2. 取大于阈值以上的
3。增加其他过滤条件
TextRank
核心:
1. 文本中取K个词,统计这些词语间的共现关系,无向图
2.所有词初始化都是1
每个节点把自己权重平均分配给所有和自己又关联的节点
每个节点把其他节点分配给自己的权重求和,作为自己新权重
如上两步反复迭代,直到权重收敛为止
特点:有共现关系的词会支持对方成为关键词
相关公式
w1=(1-d)+d(w2/2+w3/2+w4/2+w5/2+w6/2)
d: 阻尼系数
w1: 第一个词的权重
实体词识别
命名实体识别NER =named-E老太太又recognition
步骤
分词
词性标注
实体识别
属于序列标注问题
常用方法
HMM
hidden markov model隐藏马尔可夫模型
CRF
conditional random Field 条件随机场
biLSTIM+crf
词典法
内容分类
文本聚类
思路
1. 对全量文本聚类,得到每个类的中心
2. 对新的文本向局里最近的类中心聚拢,归入该类
3. 给每个类一个唯一ID
常用方法
Kmeans
主题模型/隐语义模型LSI
latent Semantic Index
LDA Latent Dirichlet Allocation
软聚类
可以让一个文本属于多个聚类
主题模型
嵌入(embedding)
本身也可以作为文本分类和聚类
得到向量的方式
word2Vec
使用最广泛
浅层神经网络
把每个词用One-Hot编码,用词预测词。网络输入输出限量唯独都是词典长度,中间隐藏神经元个数就是最终训练出来的向量维度数
;最终训练出来的embdedding向量就是输入层和隐藏层之间的网络参数
GloVe
FastText
目的:解决常规标签偏稀疏 的问题。引入向量引入同义词/近义词标签
问题
怎么没说视觉挖掘方式?视频feed流类内容挖掘大部分依托于视觉信息
因为标签体系都是文本?
3. 标签选择
目的:如何根据物品上的标签,传递到用户身上
选择方法
卡方检验
Chi-Square Test
信息增益
Information Gain
都是有监督方法
《推荐系统》读书笔记
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...