机器学习相关问题

Q1:偏差和方差

偏差：预测值与真实值的偏差
方差：预测值的离散程度
关系：此消彼涨

Bias & Variance

偏差大：欠拟合，

问题：模型过于复杂或者过于简单；算法不使用于某些特定的数据结构；
解决方案：加大模型复杂度；选择合适的算法；增加数据量

方差大，偏差大：过拟合

解决方案：正则化；增大数据集；添加dropout；提前停止训练；减小模型复杂度

Q2: 监督学习（supervised learning）和无监督学习（unsurpervised learning）的区别？

是否有响应变量(response y)或者标签(label)

Q3: KNN和K-means聚类有什么不同？

KNN是有监督学习，K-means是无监督学习
KNN是根据相邻K个点的y进行计算：分类（majority vote）；回归（加权）
K-means则根据数据点与质心的距离进行划分，需要事先制定k

Q4: 解释一下ROC曲线？

是sensitivity与1-Specificity构成的二维曲线。可以用来权衡两者的大小，一般来说，选取与（0，1）最近的点。

Q4.1: 评估指标

评估指标

Confusion Matrix:

Samples	Positive	Negative
Predict P	TP	FP
Predict N	FN	TN

$Accurary = \frac{TP+TN}{TP+FP+FN+TN}$ 描述整体情况，但对非常不平衡的数据没有参考意义。

$Error rate = \frac{FN+FP}{TP+FP+FN+TN}$ 与accurary相反

$Recall = Senstivity = \frac{TP}{TP+FN} = \frac{TP}{P}$ 正例召回率

$Precision = \frac{TP}{TP+FP}$ 预测为正例中真实为正的比例

$Sepcificity = \frac{TN}{FP+TN} = \frac{TN}{N}$ 负例正确预测比例

综合指标：

F-score $= \frac{(\alpha^2+1)*Precision*Recall}{\alpha^2(Precision+Recall)}$ , 综合了Precison和Recall

当 $\alpha = 1$ , F1-score = $\frac{2*Precision*Recall}{(Pecision+Recall)}$

ROC curve 越靠近1，越好

ROC

Q6: 什么是贝叶斯定理，它如何使用在机器学习中？

贝叶斯定理根据一件事情发生的先验知识告诉你它后验概率。

公式为： $P(A|B) = \frac{P(A,B)}{P(B)} = \frac{P(B|A)P(A)}{\sum P(B|A)P(A)}$

Q7: 朴素贝叶斯原理？

Q8: L1， L2正则之间的不同？

正则主要目的是控制模型复杂度，控制过拟合。

L1正则使用L1范数，可以产生稀疏解，达到筛选特征的效果；

L2正则使用L2范数，能不重要的特征权重衰减到0

image

Q9: 你最喜欢的算法是什么？

Q10:第一类错误和第二类错误有什么区别？

Type I error弃真：当原假设为真时，拒绝原假设。置信水平 $\alpha$
Type II error存伪：当备择假设为真时，接受了原假设。 $\alpha$ 增大， $\beta$ 减小； $\alpha$ 减小， $\beta$ 增大。

两者同时减小，只能增大样本

Q11: 生成模型和判别模型有什么区别？具体应用的算法有？

判别模型是根据样本直接估计 $P(C = y_1|x_i)$ ，比如KNN，Tree-based, SVM

生成模型是估计联合密度函数来间接估计 $P(y|X) =\frac{P(X,y)}{P(X)}$ ，比如朴素贝叶斯

Q12：交叉验证是什么？

Q13:如何对决策树进行剪枝？

当树深度足够大时，决策树会过拟合。一般根据CCP进行剪枝。

Q14: 如何处理一个不平衡对数据？

采样：上采样（Oversampling）、下采样（Undersampling）
数据合成：SMOTE，为数据量小对数据生成样本
一分类：对于极其不平衡来说，可以看作异常检测来做

Q15: 分类与回归对区别？

分类用于离散值

回归用于连续值

Q16: 集成学习例子？

Bagging

Boosting

GBDT

XGBoost

Stacking

Q17: 数据预处理过程有哪些？

处理缺失值：直接删去（Missing rate > 70%）, 根据实际意义补充（0，mean，median）
异常值处理
极值
数值化变量
区别离散变量是有序还是无序的：onehot
标准化/归一化

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,193评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,306评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,130评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,110评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,118评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,085评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,007评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,844评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,283评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,508评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,667评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,395评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,985评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,630评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,797评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,653评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,553评论 2赞 352