统计学习

1 策略

经验风险最小化：
经验风险即模型在训练数据集上的平均损失，最小化经验风险即让模型在训练集上最优，当模型是条件概率分布、损失函数是对数损失函数的时候，经验风险最小化就是极大似然估计。

结构风险最小化：
所谓结构，就是模型加上结构复杂度，加了正则项的模型在训练集上最小化误差即结构风险最小化

2 正则

正则化：L1 Lasso与L2 ridge正则

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择
L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合

为了防止过拟合，模型选择的方法：正则化、交叉验证
正则化产生稀疏特征或使模型更简单。
交叉验证选择模型合适的结果与参数。

生成模型与判别模型

生成模型可以得出给定了输入X后产生输出Y的生成关系，典型的生成模型有朴素贝叶斯，隐形马尔科夫，LDA等（可见都和bayes相关）

附LDA的介绍：
LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布

判别模型：直接学习模型的函数作为模型的预测输出，如LR，KNN，SVM，决策树等

分类评估 Precision,Recall,AUC

Precision：预测为正类的样本中真实也为正类的比例
Recall：全部正类样本中被预测为正类的比例

假设一个商品有3个中心词，通过分类算法预测了5个中心词，其中2个正确，则recall=2/3, precision=2/5
看重Recall：如推荐复购过滤，癌症检测（癌症为正类，Recall要求高，即要求检测出所有可能的癌症，而有一两个误诊关系不大）
看重Precision：如垃圾邮件检测（垃圾邮件为正类，Precision尽量要求高，即可以放过一些垃圾邮件没被识别，但不要把正常邮件当做spam给拦截）

KNN

knn k值越小则模型越复杂，越容易过拟合（偏差-方差分解？）
模型越复杂，方差越大，偏差越小

对于KNN算法，k值越大，表示模型的学习能力越弱，因为k越大，它越倾向于从“面”上考虑做出判断，而不是具体地考虑一个样本近身的情况来做出判断，所以，它的偏差会越来越大。

偏差-方差分解

KNN可以用交叉验证选择一个合适的K，模型的Total Error和K的大小的变化（如果K为横轴）也和黑线类似。
kd树：KNN的实现

朴素贝叶斯

缺失值处理

对于离散型缺失值：采取众数填充
对于连续型缺失值：采取平均数填充

xgboost中通过树模型对缺失值的学习

数据

如何处理类目不均衡问题：
在实际工作中可以采样：比如正负样本采样1比10，再对正样本进行一定程度加权
在推荐中，采样采取截断采样的方法，比如用户曝光了10个商品，点击了第5个，则对前5个样本进行截取，取前4个样本为负样本，第5个点击样本为正样本，丢弃后5个样本。

在实际训练中，对正样本进行加权
比如对于负样本：点击正样本：订单正样本赋予 1:10:50 或1:50:100的比重，这在训练xgboost时通过AUC看不出来，可以根据真实样本来评估clk和ord，或在线上AB测试来看CTR和订单的影响。（xgboost样本权重的实现原理？）

GBDT / RF bagging/boosting

GBDT在训练每棵树时候只能串行，不能并行，在确定分割节点和分割值的时候可以对多个特征进行并行
Random Forest可以并行

Bagging（RF）:每次有放回的采样n个样本，采样K次形成K个数据集，训练每棵树，汇总在一起进行预测
Boosting : 每棵树（弱分类器）学习之前的残差，最后线性求和
Adaboost: 比较好的弱分类器权重更大，加权求和
GBDT由于学习残差，貌似没有加权，直接弱分类器regression结果想加

Bagging和Boosting的区别：

1）样本选择上：
Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2）样例权重：
Bagging：使用均匀取样，每个样例的权重相等
Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

3）预测函数：
Bagging：所有预测函数的权重相等。
Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

4）并行计算：
Bagging：各个预测函数可以并行生成
Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,670评论 5赞 460
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,928评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,926评论 0赞 320
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,238评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,112评论 4赞 356
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,138评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,545评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,232评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,496评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,596评论 2赞 310
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,369评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,226评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,600评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,906评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,185评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,516评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,721评论 2赞 335