统计学习

1 策略

经验风险最小化:
经验风险即模型在训练数据集上的平均损失,最小化经验风险即让模型在训练集上最优,当模型是条件概率分布、损失函数是对数损失函数的时候,经验风险最小化就是极大似然估计。

结构风险最小化:
所谓结构,就是模型加上结构复杂度,加了正则项的模型在训练集上最小化误差即结构风险最小化

2 正则

正则化:L1 Lasso与L2 ridge正则



L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合

为了防止过拟合,模型选择的方法:正则化、交叉验证
正则化产生稀疏特征或使模型更简单。
交叉验证选择模型合适的结果与参数。

生成模型与判别模型

生成模型可以得出给定了输入X后产生输出Y的生成关系,典型的生成模型有朴素贝叶斯,隐形马尔科夫,LDA等(可见都和bayes相关)

附LDA的介绍:
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布

判别模型:直接学习模型的函数作为模型的预测输出,如LR,KNN,SVM,决策树等

分类评估 Precision,Recall,AUC

Precision:预测为正类的样本中真实也为正类的比例
Recall:全部正类样本中被预测为正类的比例

假设一个商品有3个中心词,通过分类算法预测了5个中心词,其中2个正确,则recall=2/3, precision=2/5
看重Recall:如推荐复购过滤,癌症检测(癌症为正类,Recall要求高,即要求检测出所有可能的癌症,而有一两个误诊关系不大)
看重Precision:如垃圾邮件检测(垃圾邮件为正类,Precision尽量要求高,即可以放过一些垃圾邮件没被识别,但不要把正常邮件当做spam给拦截)

KNN

knn k值越小则模型越复杂,越容易过拟合(偏差-方差分解?)
模型越复杂,方差越大,偏差越小

对于KNN算法,k值越大,表示模型的学习能力越弱,因为k越大,它越倾向于从“面”上考虑做出判断,而不是具体地考虑一个样本 近身的情况来做出判断,所以,它的偏差会越来越大。

偏差-方差分解

KNN可以用交叉验证选择一个合适的K,模型的Total Error和K的大小的变化(如果K为横轴)也和黑线类似。
kd树:KNN的实现

朴素贝叶斯
缺失值处理

对于离散型缺失值:采取众数填充
对于连续型缺失值:采取平均数填充

xgboost中通过树模型对缺失值的学习

数据

如何处理类目不均衡问题:
在实际工作中可以采样:比如正负样本采样1比10,再对正样本进行一定程度加权
在推荐中,采样采取截断采样的方法,比如用户曝光了10个商品,点击了第5个,则对前5个样本进行截取,取前4个样本为负样本,第5个点击样本为正样本,丢弃后5个样本。

在实际训练中,对正样本进行加权
比如对于 负样本:点击正样本:订单正样本 赋予 1:10:50 或1:50:100的比重,这在训练xgboost时通过AUC看不出来,可以根据真实样本来评估clk和ord,或在线上AB测试来看CTR和订单的影响。(xgboost样本权重的实现原理?)

GBDT / RF bagging/boosting

GBDT在训练每棵树时候只能串行,不能并行,在确定分割节点和分割值的时候可以对多个特征进行并行
Random Forest可以并行

Bagging(RF):每次有放回的采样n个样本,采样K次形成K个数据集,训练每棵树,汇总在一起进行预测
Boosting : 每棵树(弱分类器)学习之前的残差,最后线性求和
Adaboost: 比较好的弱分类器权重更大,加权求和
GBDT由于学习残差,貌似没有加权,直接弱分类器regression结果想加

Bagging和Boosting的区别:

1)样本选择上:
Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2)样例权重:
Bagging:使用均匀取样,每个样例的权重相等
Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。

3)预测函数:
Bagging:所有预测函数的权重相等。
Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。

4)并行计算:
Bagging:各个预测函数可以并行生成
Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容