机器学习面试题一

这个系列主要是平时看帖子遇见的机器学习相关的题做一个记录,可能比较杂乱,有些题来自七月在线相关帖子,七月在线 - 国内领先的人工智能教育平台 我会备注具体的来源。

1. 机器学习中,为何要经常对数据做归一化?

本题解析来源:http://www.cnblogs.com/LBSer/p/4440590.html

(1)归一化后加快了梯度下降求最优解的速度。


比如左图未做归一化,区间可能是[0, 1000], 等高线就非常的尖,当你用梯度下降寻求最优解的时候,很有可能走“之”字型的路线(垂直等高线走), 从而导致迭代很多次才能收敛。

比如右图,做了归一化后,等高线就比较圆,在梯度下降时间能较快的收敛。

(2)归一化有可能提高精度。

一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

2.归一化的类型:

(1)线性归一化


这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。

(2)标准差标准化

个人觉得这种使用的多一些。

经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:


(3)非线性归一化

经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V, 2)还是log(V, 10)等。

3. 如何解决梯度消失和梯度膨胀?

(1)梯度消失:

根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0。

比如sigmoid还有tanh函数,他们数轴的大部分区域都是平坦的,导数近乎于0。

可以采用ReLU(rectified linear units)激活函数 = max(x,0) 有效的解决梯度消失的情况。但是要注意x<0出现的神经元死亡问题。

ELU(Exponential Linera Unit)


(2)梯度膨胀:

根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大。

可以通过激活函数来解决。

4.下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )

A. 特征灵活 B. 速度快 C. 可容纳较多上下文信息 D. 全局最优

解答:首先,CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模。

隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择。

最大熵隐马模型则解决了隐马的问题,可以任意选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题,即凡是训练语料中未出现的情况全都忽略掉。

条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。

答案为B。

5.监督学习vs无监督学习

(1)监督学习:有训练样本的,样本有对应的标签集就是监督型学习,训练一个模型,再利用这个模型对未知的数据进行预测,例如分类和回归。比如:KNN,决策树,线性回归,逻辑回归,朴素贝叶斯。

(2)无监督学习:使用的数据是没有标记过的,即不知道输入数据对应的输出结果是什么。无监督学习只能默默的读取数据,自己寻找数据的模型和规律,比如聚类(把相似数据归为一组)和异常检测(寻找异常)。比如:Kmeans,PCA等。

(3)半监督学习:训练中使用的数据,只有一小部分是标记过的,而大部分是没有标记的。因此和监督学习相比,半监督学习的成本较低,但是又能达到较高的准确度。

(4)强化学习:使用未标记的数据,但是可以通过某种方法知道你是离正确答案越来越近还是越来越远(即奖惩函数)。

6. 协方差和相关性有什么区别?

来自知乎:https://www.zhihu.com/question/20852004

(1)协方差:

两个变量在变化过程中是同方向变化?还是反方向变化?

你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的。你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的。

公式:

正向:

反向:

但很多时候X,Y运动是不规律的,需要累加起来,将每一时刻X-ux与Y-uy的乘积加在一起,其中的正负项就会抵消掉,最后求的平均值就是协方差了。通过协方差的数值大小,就可以判断这两个变量同向或反向的程度了。

如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。

(2)相关系数:


就是用X、Y的协方差除以X的标准差和Y的标准差。相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

它可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

比如:

计算这两个图的协方差,第一种情况是15428.57,第二种情况是1.542857,协方差差出了一万倍,只能从两个协方差都是正数判断出两种情况下X、Y都是同向变化,但是,一点也看不出两种情况下X、Y的变化都具有相似性这一特点。所以使用相关系数。相关系数不像协方差一样可以在负无穷到正无穷间变化,它只能在+1到-1之间变化。所以就可以比较相似度。

7.线性分类器与非线性分类器的区别以及优劣

如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。

常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归。

常见的非线性分类器:决策树、RF、GBDT、多层感知机。SVM两种都有(看线性核还是高斯核)。

线性分类器速度快、编程方便,但是可能拟合效果不会很好。

非线性分类器编程复杂,但是效果拟合能力强。

8. 贝叶斯定理

https://blog.csdn.net/v_july_v/article/details/40984699

条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B)。

联合概率表示两个事件共同发生的概率。P(A, B).

边缘概率(又称先验概率)是某个事件发生的概率。比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)。

贝叶斯定理便是基于下述贝叶斯公式:


Google的拼写检查基于贝叶斯方法。

9.贝叶斯学派与频率学派有何不同?

贝叶斯学派与频率学派有何不同? - 知乎

比如打麻将:

只看下面有什么牌来决策的就是频率学派。而不光看下面有什么牌,还看这个牌是谁打出的,什么时候打出的,这个人打出所有牌友什么联系的,就是贝叶斯学派

频率学派,其特征是把需要推断的参数θ视作固定且未知的常数,而样本X是随机的,其着眼点在样本空间,有关的概率计算都是针对X的分布。

贝叶斯学派,他们把参数θ视作随机变量,而样本X是固定的,其着眼点在参数空间,重视参数θ的分布,固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容