《推荐系统》读书笔记

推荐系统学习笔记.png

推荐系统学习笔记
第一章节 概念与思维
什么时候需要用有推荐系统
推荐系统常见的问题模式(主要做什么的)
1.预测问题模式
评分预测
行为预测
2常见难题
冷启动问题
EE问题:探索和利用问题(exploration and exploitation)
安全问题
需要有的思维模式
1. 关键元素
UI UE
数据
领域知识
算法
2.思维模式
目标思维
要给推荐系统一个目标去让系统优化迭代
注意点
区分目标 VS 手段
给推荐系统提的应该是目标,而非具体手段
需要目标同时也需要知道限制性条件
比如 点击率 、 多样性
不确定性思维
用概率性看待结果,而不是因果关系
第二章 产品漫谈
1.推荐系统的价值和成本
更好的连接内容和用户
成本
人员构成成本
算法工程师+架构设计师;高级+初级梯度搭配
硬件成本
2.feed流的历史
社交动态信息流——>图文信息流——>视频信息流
配套设施
内容源
广告系统
将推荐系统的用户注意里变现
feed流是个半衰期较长的注意力存储器
其放射性核的数目衰变到原有的一半所需的时间。是放射性元素的一个特性常数,
一般不随元素质量的多少、外界条件的变化以及元素所处状态的不同而改变。
第三章 内容推荐
1. 用户画像【user profile】
用户画像是给推荐系统用的,所以需要向量化?
用户画像不是推荐系统的目的,是推荐系统关键环节中的一个副产品
用户画像如果不向量化,无法计算?
不是也需要一些显式画像么?要不然推荐冷启动怎么做?
用户画像的量化不应该主观,应该根据使用效果(排序好坏、召回覆盖等指标)来指导用户画像量化
类型
稀疏向量
标签
注册信息等
稠密向量
训练神经网络拿到的embedding向量
通过矩阵分解得到的隐因子
通过浅层语义分析或者话题模型得到的话题分布
关键元素
维度
量化
用户画像构建
1.查户口
获取常规人口统计学意义上画像信息
如年龄性别嗯
2.堆数据
根据用户的一些历史行为进行加工获取
如根据用户感兴趣的物品标签,代表用户兴趣标签
3.黑盒子
用机器学习的方式,学习出人类无法理解的稠密向量
2.标签挖掘方式
挖掘来源
用户层面
注册资料信息
自己发布的的动态信息
有相关行为的物料信息
物品层面
物品标题、描述
好的标签库的标准
覆盖面广
要对大部分视频都能覆盖到标签
健康性?
标签平均覆盖物品的程度
齐普夫定律?
好的标签库,标签覆盖分布熵要高,熵越高分布越均匀
相似性
(高内聚,低耦合)
同一个标签内容都是相似的,不同标签之间有差别
问题
多分类体系怎么说?就一定是标签系统本身的问题?
也即一个item可用同一套分类体系的多个分类去同时表达
如何建设标签库
中心化+去中心化相结合
标签挖掘方式
目的
将非结构化的文本信息挖掘为结构化的标签信息,以方便计算机进行向量化计算
NLP方式
关键词提取
无监督方式
TF-IDF
来源于检索领域
更适用于长文本
核心思想:如果一个词语出现频率高的重要,但是都出现的不重要
计算方式
1. 统计TF
2.计算IDF
=log(N/n+1)
N有多少个文本
n= 统计某个词出现了多少次在文本中
3. 将TFIDF,得出每个词的权重
4.根据权重筛选关键词
常用方式
1. 取top k
2. 取大于阈值以上的
3。增加其他过滤条件
TextRank
核心:
1. 文本中取K个词,统计这些词语间的共现关系,无向图
2.所有词初始化都是1
每个节点把自己权重平均分配给所有和自己又关联的节点
每个节点把其他节点分配给自己的权重求和,作为自己新权重
如上两步反复迭代,直到权重收敛为止
特点:有共现关系的词会支持对方成为关键词
相关公式
w1=(1-d)+d
(w2/2+w3/2+w4/2+w5/2+w6/2)
d: 阻尼系数
w1: 第一个词的权重
实体词识别
命名实体识别NER =named-E老太太又recognition
步骤
分词
词性标注
实体识别
属于序列标注问题
常用方法
HMM
hidden markov model隐藏马尔可夫模型
CRF
conditional random Field 条件随机场
biLSTIM+crf
词典法
内容分类
文本聚类
思路
1. 对全量文本聚类,得到每个类的中心
2. 对新的文本向局里最近的类中心聚拢,归入该类
3. 给每个类一个唯一ID
常用方法
Kmeans
主题模型/隐语义模型LSI
latent Semantic Index
LDA Latent Dirichlet Allocation
软聚类
可以让一个文本属于多个聚类
主题模型
嵌入(embedding)
本身也可以作为文本分类和聚类
得到向量的方式
word2Vec
使用最广泛
浅层神经网络
把每个词用One-Hot编码,用词预测词。网络输入输出限量唯独都是词典长度,中间隐藏神经元个数就是最终训练出来的向量维度数
;最终训练出来的embdedding向量就是输入层和隐藏层之间的网络参数
GloVe
FastText
目的:解决常规标签偏稀疏 的问题。引入向量引入同义词/近义词标签
问题
怎么没说视觉挖掘方式?视频feed流类内容挖掘大部分依托于视觉信息
因为标签体系都是文本?
3. 标签选择
目的:如何根据物品上的标签,传递到用户身上
选择方法
卡方检验
Chi-Square Test
信息增益
Information Gain
都是有监督方法

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,542评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,822评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,912评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,449评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,500评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,370评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,193评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,074评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,505评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,722评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,841评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,569评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,168评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,783评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,918评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,962评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,781评论 2 354

推荐阅读更多精彩内容

  • 我教会了你用刀 你竟用刀来捅我 然而你却死的很惨 因为你不知道 其实我还准备教你用枪 本想今天告诉你 刀的最高境界...
    清净独觉阅读 464评论 6 29
  • 女儿留学澳洲那些事儿(15) 女儿又找到第二份工作了,在市中心的“珍宝海鲜”,港式饮茶,早餐为主。 有一个多月没打...
    优雅老妈阅读 390评论 1 4
  • 1 小树肚脐上贴了膏药,贴的时候我很兴奋对她说:树,快来贴,贴上这个你就是宝贝,你是贴牌的经过认证的宝贝! 小树很...
    应童阅读 296评论 0 3
  • 今晚的心情,有点哭笑不得。 萤火虫之光,那不是真的光芒,它无法照亮我想要去的远方。 我和幸福之间隔着一个光年的距离...
    梦殇古城阅读 195评论 2 2
  • 刚才听课,听到“心理疲劳”这个词,这是存在于异常的心理现象的范畴,我立刻就对号入座了。症状是因心理问题造成的无精...
    悠悠6547阅读 257评论 6 1