机器学习基本算法

1Logistic回归

优点:计算代价不高,易于理解和实现。

缺点:容易欠拟合,分类精度可能不高。

适用数据类型:数值型和标称型数据。

类别:分类算法。

适用场景:解决二分类问题。

简述:Logistic回归算法基于Sigmoid函数,或者说Sigmoid就是逻辑回归函数。Sigmoid函数定义如下:1/(1+exp(-z))。函数值域范围(0,1)。可以用来做分类器。

Sigmoid函数的函数曲线如下:

逻辑回归模型分解如下: (1)首先将不同维度的属性值和对应的一组权重加和:

公式如下: z = w0+w1x1+w2x2+…+wm*xm。(其中x1,x2,…,xm是某样本数据的各个特征,维度为m)

ps:这里就是一个线性回归。W权重值就是需要经过训练学习到的数值,具体W向量的求解,就需要用到极大似然估计和将似然估计函数代入到优化算法来求解。最常用的最后化算法有梯度上升算法。

由上面可见:逻辑回归函数虽然是一个非线性的函数,但其实其去除Sigmoid映射函数之后,其他步骤都和线性回归一致。

(2)然后将上述的线性目标函数 z 代入到sigmond逻辑回归函数,可以得到值域为(0,0.5)和(0.5,1)两类值,等于0.5的怎么处理还以自己定。这样其实就得到了2类数据,也就体现了二分类的概念。

总结:Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,参数的求解过程可以由最优化算法来完成。在最优化算法中,最常用的就是梯度上升算法,而梯度上升算法有可以简化为随机梯度上升算法。

2SVM(Support Vector Machines) 支持向量机

优点:泛化错误率低,计算开销不大,结果易解释。

缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二分类问题。

适用数据类型:数值型和标称型(分类)数据。

类别:分类算法。

试用场景:解决二分类问题。

简述:通俗的讲,SVM是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。或者简单的可以理解为就是在高维空间中寻找一个合理的超平面将数据点分隔开来,其中涉及到非线性数据到高维的映射以达到数据线性可分的目的。

支持向量概念:

上面样本图是一个特殊的二维情况,真实情况当然可能是很多维。先从低纬度简单理解一下什么是支持向量。从图中可以看到3条线,中间那条红色的线到其他两条先的距离相等。这条红色的就是SVM在二维情况下要寻找的超平面,用于二分类数据。而支撑另外两条线上的点就是所谓的支持向量。从图中可以看到,中间的超平面和另外两条线中间是没有样本的。找到这个超平面后,利用超平面的数据数学表示来对样本数据进行二分类,就是SVM的机制了。

ps: 《机器学习实战》书中有这么几个概念:

(1)如果能找到一个直线(或多维的面)将样本点分开,那么这组数据就是线性可分的。将上述数据集分隔开来的直线(或多维的面)称为分隔超平面。分布在超平面一侧的数据属于一个类别,分布在超平面另一侧的数据属于另一个类别

(2)支持向量(Support vector)就是分离超平面最近的那些点。

(3)几乎所有分类问题都可以使用SVM,值得一提的是,SVM本身是一个二分类分类器,对多类问题应用SVM需要对代码做一些修改。

公式:

SVM有很多实现,但是本章值关注其中最流行的一种实现,及序列最小优化(Sequential Minimal Optimization,SMO)算法。

其公式如下:

SMO算法的目标是求出一些列的alpha,一旦求出了alpha,就很容易计算出权重向量w并得到分隔超平面。

SMO算法的工作原理是:每次循环中选择两个alpha进行优化处理。一旦找到一对合适的alpha,那么就增大其中一个同时减小另一个。这里所谓的“合适”就是指两个alpha必须符合一定的条件,条件之一就是这两个alpha必须要在间隔边界之外,而其第二个条件则是这两个alpha还没有进行过区间化处理或者不在边界上。

核函数将数据从低维度映射到高维:

SVM是通过寻找超平面将数据进行分类的,但是当数据不是线性可分的时候就需要利用核函数将数据从低维映射到高维使其线性可分后,在应用SVM理论。

示例:

这个二维数据分布不是线性可分的,其方程为:

但是通过核函数维度映射后,其变为:

对应的方程为:

这样映射后的数据就变成了线性可分的,就可以应用SVM理论了。

总结:支持向量机是一种分类器。之所以成为“机”是因为他会产生一个二值决策结果,即它是一种‘决策’机。核方法或者说核技巧会将数据(有时是非线性数据)从一个低维空间映射到一个高维空间,可以将一个在低维空间中的非线性问题转换为高维空间下的线性问题来求解。

3 决策树

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。

缺点:可能会产生匹配过度问题。

适用数据类型:数值型和标称型。

算法类型:分类算法。

数据要求:树的构造只适用于标称型的数据,因此数值型数据必须离散化。

简述:在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性特征,划分出最好的结果,我们必须评估每个特征。完成测试后,原始数据就被划分为几个数据子集。这些数据的子集分布在第一个决策点的所有分支上,如果某个分支下的数据属于同一个类型,则无需进一步对数据集进行切割。反之则需要进一步切割。

创建分支的伪代码如下:

检测数据集中的每个子项是否属于同一分类:ifsoreturn类标签;else寻找数据集的最好特征 划分数据集 创建分支结点for每个划分的子集 调用函数createBranch并增加返回结果到分支结点中return分支结点

在可以评测哪种数据划分方式是最好的数据划分之前,我们必须学习如何计算信息增益。集合的信息度量方式称为香农熵或者简称为熵。熵在信息论中定义为信息的期望值。

信息熵的计算公式为:

H(信息熵) = -∑ P(xi) log2P(xi) ps:其中p(xi)表示选择该分类的概率。

下面简述一下生成决策树的步骤:

(1) 根据给定的训练数据,根据熵最大原则根据每一个维度来划分数据集,找到最关键的维度。

(2) 当某个分支下所有的数据都数据同一分类则终止划分并返回类标签,否则在此分支上重复实施(1)过程。

(3) 依次计算就将类标签构建成了一棵抉择树。

(4) 依靠训练数据构造了决策树之后,我们就可以将它用于实际数据的分类。

ps:当然生成决策树的算法不止这一个,还有其他一些生成决策树的方法,比如:C4.5和CART。

总结:

决策树分类器就像带有终止块的流程图,终止块表示分类结果。开始处理数据集时,我们首先需要测量集合中数据的不一致性,也就是熵,然后寻找最优的方案划分数据集,直到数据集中的所有数据属于同一个分类。

4 朴素贝叶斯:

优点:在数据较少的情况下仍然有效,可以处理多类别问题。

缺点:对于输入数据的准备方式较为敏感。

适用的数据类型:标称型数据。

算法类型:分类算法

简述:朴素贝叶斯是贝叶斯理论的一部分,贝叶斯决策理论的核心思想,即选择具有高概率的决策。朴素贝叶斯之所以冠以朴素开头,是因为其在贝叶斯理论的基础上做出了两点假设:

(1)每个特征之间相互独立。

(2)每个特征同等重要。

贝叶斯准则是构建在条件概率的基础之上的,其公式如下:

P(H|X)=P(X|H)P(H)/P(X)

ps:P(H|X)是根据X参数值判断其属于类别H的概率,称为后验概率。P(H)是直接判断某个样本属于H的概率,称为先验概率。P(X|H)是在类别H中观测到X的概率(后验概率),P(X)是在数据库中观测到X的概率。可见贝叶斯准则是基于条件概率并且和观测到样本的先验概率和后验概率是分不开的。

总结:对于分类而言,使用概率有事要比使用硬规则更为有效。贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法。可以通过特征之间的条件独立性假设,降低对数据量的需求。尽管条件独立性的假设并不正确,但是朴素贝叶斯仍然是一种有效的分类器。

5 K-近邻算法(KNN):

优点:精度高、对异常值不敏感、无数据输入假定。

缺点:计算复杂度高,空间复杂度搞。

适用数据范围:数值型和标称型。

算法类型:分类算法。

简述:算法原理,存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道

样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征和样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

6 线性回归(Linear Regression):

优点:结果易于理解,计算上不复杂。

缺点:对非线性数据拟合不好。

适用数据类型:数值型和标称型数据。

算法类型:回归算法。

ps:回归于分类的不同,就在于其目标变量时连续数值型。

简述:在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合(自变量都是一次方)。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。

线性方程的模型函数的向量表示形式为:

通过训练数据集寻找向量系数的最优解,即为求解模型参数。其中求解模型系数的优化器方法可以用“最小二乘法”、“梯度下降”算法,来求解损失函数:

的最优值。

附加:岭回归(ridge regression):

岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价,获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法。

岭回归分析法是从根本上消除复共线性影响的统计方法。岭回归模型通过在相关矩阵中引入一个很小的岭参数K(1>K>0),并将它加到主对角线元素上,从而降低参数的最小二乘估计中复共线特征向量的影响,减小复共线变量系数最小二乘估计的方法,以保证参数估计更接近真实情况。岭回归分析将所有的变量引入模型中,比逐步回归分析提供更多的信息。

总结:与分类一样,回归也是预测目标值的过程。回归与分类的不同点在于,前者预测连续型的变量,而后者预测离散型的变量。回归是统计学中最有力的工具之一。在回归方程里,求得特征对应的最佳回归系统的方法是最小化误差的平方和。

7 树回归:

优点:可以对复杂和非线性的数据建模。

缺点:结果不易理解。

适用数据类型:数值型和标称型数据。

算法类型:回归算法。

简述:线性回归方法可以有效的拟合所有样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的回归算法是比较困难的。此外,实际中很多问题为非线性的,例如常见的分段函数,不可能用全局线性模型类进行拟合。树回归将数据集切分成多份易建模的数据,然后利用线性回归进行建模和拟合。较为经典的树回归算法为CART(classification and regreesion trees 分类回归树)。

CART算法的详细描述可以看这篇文章:http://box.cloud.taobao.com/file/downloadFile.htm?shareLink=1GIQrknG

8 K-Means(K 均值算法):

优点:容易实现。

缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。

适用数据类型:数值型数据。

算法类型:聚类算法。

ps:K-Means和上面的分类和回归算法不同,它属于非监督学习算法。类似分类和回归中的目标变量事先并不存在。与前面“对于数据变量X能预测变量Y”不同的是,非监督学习算法要回答的问题是:“从数据X中能发现什么?“,这里需要回答的X方面可能的问题是:”构成X的最佳6个数据簇都是哪些“或者”X中哪三个特征最频繁共现?“。

K-Means的基本步骤:

(1) 从数据对象中随机的初始化K个初始点作为质心。然后将数据集中的每个点分配到一个簇中,具体来讲每个点找到距其最近的质心,并将其分配给该质心所对应的簇。

(2) 计算每个簇中样本点的均值,然后用均值更新掉该簇的质心。然后划分簇结点。

(3) 迭代重复(2)过程,当簇对象不再发生变化时,或者误差在评测函数预估的范围时,停止迭代。

算法的时间复杂度上界为O(nkt), 其中t是迭代次数。

ps:初始的K个质心的选取以及距离计算公式的好坏,将影响到算法的整体性能。

附加:

二分K-均值算法:为克服K-均值算法收敛于局部最小值的问题,有人提出了另一个称为二分K-均值(bisecting K-Means)的算法。该算法首先将所有点作为一个簇,然后将簇一分为二。之后选择其中一个簇继续划分,选择哪个一簇进行划分取决于对其划分是否可以最大程度降低SSE(Sum of Squared Error,两个簇的总误差平方和)的值。

9 算法关联分析:

首先了两个概念:

频繁项集(frequent item sets):经常出现在一块的物品的集合。

关联规则(association rules):暗示两种物品间可能存在很强的关系。

项集的支持度(support):数据集中包含该项集记录所占的比例。

关联分析的目标包括两项:发现频繁项集合发现关联规则。首先找到频繁项集,然后才能获得关联规则。

Apriori算法:

优点:易编码实现。

缺点:在大型数据集上可能较慢。

适用数据类型:数值型或标称型数据。

原理:如果某个项集时频繁的,那么他的所有子集也是频繁的。

Apriori运用的DEMO示例参见博客:http://blog.csdn.net/lantian0802/article/details/38331463

简述:

Apriori算法是发现频繁项集的一种方法。Apriori算法的两个输入参数分别是最小支持度和数据集。该算法首先会生成所有单个item的项集列表。然后扫描列表计算每个item的项集支持度,将低于最小支持度的item排除掉,然后将每个item两两组合,然后重新计算整合后的item列表的支持度并且和最小支持度比较。重复这一过程,直至所有项集都被去掉。

总结:

关联分析是用于发现大数据集中元素间有趣关系的一个工具集,可以采用两种方式来量化这些有趣的关系。发现元素间不同的组合是个十分耗时的任务,不可避免需要大量昂贵的计算资源,这就需要一些更智能的方法在合理的时间范围内找到频繁项集。能够实现这一目标的一个方法是Apriori算法,它使用Apriori原理来减少在数据库上进行检查的集合的数目。Apriori原理是说如果一个元素是不频繁的,那么那些包含该元素的超集也是不频繁的。Apriori算法从单元素项集开始,通过组合满足最小支持度要求的项集来形成更大的集合。支持度用来度量一个集合在原始数据中出现的频率。

10 FP-growth算法:

简述:FP-growth也是用于发现频繁项集的算法,他以FP树的结构存储构建元素,其他Apriori算法的性能要好很多。通常性能要好2个数量级以上。其发现频繁项集的过程如下:(1)构建FP树。(2)从FP树中挖掘频繁项集。

优点:一般要快于Apriori。

缺点:实现比较困难,在某些数据集上性能会下降。

适用数据类型:标称型数据。

总结:FP-growth算法是一种用于发现数据集中频繁模式的有效方法。FP-growth算法利用Apriori原则,执行更快。Apriori算法产生候选项集,然后扫描数据集来检查他们是否频繁。由于只对数据集扫描两次,因此FP-growth算法执行更快。在FP-growth算法中,数据集存储在一个称为FP树的结构中。FP树构建完成后,可以通过查找元素项的条件及FP树来发现频繁项集。该过程不断以更多元素作为条件重复进行,直到FP树只包含一个元素为止。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,001评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,210评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,874评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,001评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,022评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,005评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,929评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,742评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,193评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,427评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,583评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,305评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,911评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,564评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,731评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,581评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,478评论 2 352

推荐阅读更多精彩内容

  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,500评论 4 65
  • 利用回归预测数值型数据 线性回归 前面讲的都是监督学习中的分类,训练出可以判断样本类别的模型,而回归的目的是预测数...
    我偏笑_NSNirvana阅读 9,576评论 4 50
  • 注:题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主,不涉及代码实现。 前些日子定下了未来三年左右...
    我偏笑_NSNirvana阅读 39,968评论 12 145
  • 这个题目取得比较奇怪,原因是:虽然号称数学是世界上最简洁的语言,但是太多的公式难免看的人心慌;其次公式在hexo+...
    Helen_Cat阅读 2,638评论 0 13
  • 汽车在街道上奔跑, 排放尾气,喇叭鸣叫。 这不是喧嚣。 半夜里人们狂欢, 畅饮大笑,争执吵闹。 这不是喧嚣。 清晨...
    Z0001阅读 376评论 2 4