机器学习实战||机器学习简介

又要开始新的旅程了。

这一次是大名鼎鼎的《机器学习实战》。在2018年10月20日着手写《环境与生态统计:R语言应用》的时候,就想过这本书了,那个时候真的不敢写,觉得时间还没到。在差不多把《环境与生态统计:R语言应用》和《R统计应用开发实战》这两本书看完之后,我感到下一步无论如何是躲不过机器学习了。当然《环境与生态统计:R语言应用》目前更新了三分之一,还会继续。

说起机器学习是件很早的事,大概在2018年才开始接触这玩意吧。虽然在2017年的时候搞过一段时间的特征选择的工作,但是那个时候是盲人骑瞎马,搞半天连一个ROC都没有搞明白。今天,2019年1月12日,在历史上并没有什么不同,就是在这个平静的连阿西莫夫都记不起来的日子,我要开始在简书更新《机器学习实战》的学习笔记了。

开始总是一件很容易的事,但是把事情做好需要很多功课。所谓善始者实繁,克终者盖寡。在简书更新笔记的一个好处就是,可以一边看书,一边把自己不懂的地方靠互联网来补齐,让自己能讲出一个相对完整的故事。这一点在以上两本书的学习笔记中体现的很极致:只看书的话我不会学的这么深,这么认真。可以说这一种把书读厚的方法吧。

另一个特点就是和统计有关的特别是应用到R和Python等数据科学分析工具的知识总是很容易在网上找到,不必担心自己太过孤单,总是有人陪着你。当然没有一个好的浏览器是不行的,如果没有Google我的《数量生态学》笔记《环境与生态统计:R语言应用》不会写的这么好,如果说有点好的话。

为什么是机器学习?

在学习《环境与生态统计:R语言应用》的时候,每一个模型都在指向机器学习。也许这本书的作者足够诚实,他告诉我们:统计模型总是归纳性质的。那么我们忍不住会想:如果这种归纳在工作由机器来做那会如何呢?如果机器不仅能完成归纳工作,而且还可用其归纳出来的规律来预测未知的数据,特别是自己还能对预测和好坏做出评估并加以改正,这不是很好嘛?

如果要开始,那就只能以机器学习开始,历史已经走到了这个时间节点,。就像一切都已经准备好了,而机器学习当年的初恋,当你功成名就,而她有那么的触手可得,就不免让人产生一种再试一试的冲动。

早在2018年5月就买了这本书,一直在我的待读列表里面,迟迟没有动工。难道说时间不是到了吗?

为什么选择了Python?

其实我挺希望用R来做这件事的,R也是完全能够胜任的,而且我对R要熟悉的多。我到现在还是不明白一个人为什么能够用R了还非要用Python,特别是R就能完成他的日常工作?也许就像爱情是经不起蛊惑的,.这漫天的Python推荐课以及各式各样的【人生苦短,我用Python】的海报真的起作用了吧!十年后的自己给现在做一个决定的话,一门心思用R呢,还是开始学习Python?这真的是一个非此即彼的选择吗?

就让她开始吧。

那么问题来了:什么是机器学习?

在众多定义中我们选择这一个:统计学习(机器学习)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。在统计学上,机器学习就表现为两方面:分类与回归。

机器学习分类

监督学习:数据集是有标签的,就是说对于给出的样本我们是知道答案的,我们大部分学到的模型都是属于这一类的,包括线性分类器、支持向量机等等;

无监督学习:跟监督学习相反,数据集市完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类,这样就完全不需要lable,比如著名的k-meads算法就是无监督学习应用最广泛的算法;

半监督学习:半监督学习一般针对的问题是数据量超级大但是有标签数据很少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的而有一部分是没有的;

强化学习:一直激励学习的方式,通过激励函数来让模型不断根据遇到的情况做出调整;

实现机器学习的步骤:

  • 得到一个有限的训练数据集合
  • 确定包含所有可能的模型的假设空间,即学习模型的集合
  • 确定模型选择的准则,即学习的策略
  • 实现求解最优模型的算法,即学习的算法
  • 通过学习方法选择最优模型
  • 利用学习的最优模型对新数据进行预测或分析

其中,模型、策略、算法被称为机器学习的三要素。

我将如何开始?

我将会以《机器学习实战》这本书为主,并参考《统计学习方法》来完成自己的机器学习入门之旅。似乎还差一门视频网课,目前还没有找到好的资源,主要是自己并不太喜欢上视频课。有的话也会学一些吧。然后就是网上的无限的资源了,之前的学习都是查查就能明白个大概,可是机器学习并不是这样的,要明白还有很长的路要走,好在我们已经开始了。

这本书的周期给的时间长一些吧,全书15章,每两周一章,每月两章,大概是8个月的时间,所以就定在2019年的国庆前。


参考:
机器学习该怎么入门?
机器学习基本概念梳理
Machine-Learning-in-Action-Python3
100-Days-Of-ML-Code

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容