机器学习的主要方法

简单的说,

监督学习就像义务教育,学校决定你学什么,老师教你怎么学,学不好要被老师罚站,考不好,回家还要被父母揍一顿,实在学不好,也可以被终止(休学);无监督学习就像大学教育,爱学学,不学滚,爱考60分考60分,爱考80分考80分,业余还可以学点儿自己的爱好,缺点是可能出现死循环,毕不了业。可以说,无监督学习比有监督学习要高级些。

文章版权为作者所有,转载请保留链接

机器学习是一种用来甄别问题模型的方法,让机器把一堆数据按某种规则进行识别分类,最后得到我们想要结果。这听上去很简单,是吗? 实际上,使用机器学习对未知的数据进行识别分类是非常困难的,机器需要运算很长的时间。问题越复杂,给数据寻找恰当模型的可能性就越低, 因为对数据模型的分类方式几乎是无穷的,有已知的,有未知的。

Supervised and Unsupervised learning
有监督学习和无监督学习

对于分类问题,最关键的是找到类型的边界,即便是一个简单的分类问题,也可能存在几百万种边界,我们无法说哪一种边界是最恰当的。因为,即使我们能够做到对已知的数据进行分类或建模,但对于未知的数据,已有的模型是否仍然有效,我们不得而知。虽然如此,但是我们依然可以通过一些方法提高我们模型的正确率。机器学习的各种方法为我们探寻更好的模型和边界问题设立了标准,来提高准确率。

机器学习大体上分为有监督学习和无监督学习,这两种方式的区别在于数据集是否有标签。

有监督学习,机器将根据已有数据标记,模型化每一种可被分类数据,在分析未知数据时,机器将根据已知的模型和数据分类来执行。
举个栗子:
比如在图像识别领域, 你可以收集一组猫的图片,标记为cat,一组人的图片,标记为human,机器可以通过学习这些图片,当分析一张新的图片时,它可以自己识别图片是属于cat 还是human,或者两者都不是,这个栗子在实际使用中似乎没什么价值;但是这个理论却可以用在一些领域,例如在电商平台,通过系统自动对图片分类,对新上传的图片标记或者校验。从这个栗子里,我们可以看到,有监督学习需要我们预先准备正确的数据。

相对而言,另外一种方式是无监督学习,机器将使用无标记的数据,在这种场景下,我们只需要提供输入数据,机器学习的关键点是通过计算找出数据隐含的特性。通过数据的共有特性来把数据分组,找出数据的内在联系,我们把这种方式叫做聚类分析。举个栗子,在金融行业中,我们通常会做信用评估,为了减轻信用审核人员的工作量,我们会上一些自动化的评估系统,系统会自动的对数据归类,比如会员信息中含有性别,年龄,居住地,职业等信息,通过对历史数据分析归类,就可得出信用好的和信用差的的特性标签,然后当一个新会员进来,就可以自动化的算出用户的信用评分。大家一定听过一个老掉牙的例子,超市通过对历史数据进行无监督学习,发现很多男性去超市给婴儿买尿布的时候,会顺便买啤酒,然后就把婴儿尿布和啤酒摆放在一起。其实这个梗,在推大数据时也屡次被人提到,可见机器学习和大数据的紧密联系。

现在我们已经知道了监督学习和无监督学习最大的不同点,但这并不是全部,监督学习和无监督学习都有些不同的方法。

Supported Vector Machine
SVM 支持向量机

可以说SVM是监督学习中最流行方法之一,也广泛的用于数据挖掘领域。在支持向量机中,每一个数据分类都以最接近其它已标记数据的分类作为标准,并且运用这个标准作为决策边界的界定条件,使每个已标记数据的边界与边界之间的距离的欧几里得距离之和是最大化的。已标记的数据叫做支持向量。简而言之,SVM 设置了每个模型的边界与边界之间最大距离的中点,那么,为什么SVM的算法能够知道这个边界的最大值呢?
要想知道SVM为什么这么神奇,就需要我们了解一个非常有价值的方法 -- kernel trick 或者叫做 kernel method。 现在肯定有读者会问,你在说什么鸟语。。。

喜欢看科幻小说的人肯定会知道一个名词 -- 降维打击,在空间物理学中,当高维空间的物体处于低维度空间时,物体自身的微观粒子间的相互作用公式可能会发生改变,从而变得不稳定发生分解。所以降维打击,就是让目标物体本身所处的空间维度降低,从而毁灭目标物体, 这玩意听起来是不是比核弹或者飓风听起来更可怕。
我个人比较喜欢看寻宝类的电影,这种电影常用的套路是,发现一张藏宝图,在特定的时间,到达特定的位置,阳光穿过某个孔,照射到某处机关,放上一把钥匙,打开的入口,闯过迷宫 ... 如果把这些套路中的每一个因素都做为一维信息空间的话,那么寻找宝藏这一整套事情就叠加成一个高维度信息空间问题。用一维信息空间的思维或方法是无法完成寻宝这一整间事的, 你必须从高维信息空间的思维才能完成这件事。比如盗墓笔记里的主角,可以通过山川大海和日月星辰定位墓穴,如果你没有这种高一维的知识技能,找墓穴基本是抓瞎。

好了,废话说了不少,kernel method 与降维打击相反,就是一种把低维度问题放在高维度空间中建模的一种方法。

Hidden Markov Model
HMM 隐马尔科夫模型
HMM是一种无监督学习方法,假设数据遵循马尔科夫处理过程. 马尔科夫处理是一种随机处理过程,是指下一个系统的状态只与当前状态有关,和上一个状态无关.
HMM 经常用在频率分析,或时间序列数据的分析, 常用的领域有NLP(自然语言处理) 和 SSP(语音处理).

Neural networks
NN 神经网络
神经网络同其它的机器学习有很大不同,当其它的机器学习方法还在使用概率或统计的时候,神经网络已经延伸到生物学,神经网络算法通过模拟人类大脑的结构来实现的。大脑的神经单元互相连接,通过生物电信号传输。
神经网络是个统称,传统的神经网络是有监督学习,随着各种算法被研究出来,特别是在深度学习领域,很多算法也实现了无监督学习。

Logistic Regression
LR 逻辑回归
逻辑回归是一种统计回归模型,统计变量伯努利分布(离散分布),SVM 和NN 属于分类模型,而LR是回归模型,也是有监督学习。尽管LR和NN有本质上的区别,但是,LR被认为是NN的一种,他们在公式上有些类似的地方。

每一个机器学习的方法都有自己独特的用处,最重要的是,你要知道你有的数据是什么,将要用来做什么,然后以此为据,选择适当的方法; 通过不同的场景,选择恰当的算法,如果选择错了方法,只能送你一句:

苦海无涯,回头是岸 ...

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容