又要开始新的旅程了。
这一次是大名鼎鼎的《机器学习实战》。在2018年10月20日着手写《环境与生态统计:R语言应用》的时候,就想过这本书了,那个时候真的不敢写,觉得时间还没到。在差不多把《环境与生态统计:R语言应用》和《R统计应用开发实战》这两本书看完之后,我感到下一步无论如何是躲不过机器学习了。当然《环境与生态统计:R语言应用》目前更新了三分之一,还会继续。
说起机器学习是件很早的事,大概在2018年才开始接触这玩意吧。虽然在2017年的时候搞过一段时间的特征选择的工作,但是那个时候是盲人骑瞎马,搞半天连一个ROC都没有搞明白。今天,2019年1月12日,在历史上并没有什么不同,就是在这个平静的连阿西莫夫都记不起来的日子,我要开始在简书更新《机器学习实战》的学习笔记了。
开始总是一件很容易的事,但是把事情做好需要很多功课。所谓善始者实繁,克终者盖寡。在简书更新笔记的一个好处就是,可以一边看书,一边把自己不懂的地方靠互联网来补齐,让自己能讲出一个相对完整的故事。这一点在以上两本书的学习笔记中体现的很极致:只看书的话我不会学的这么深,这么认真。可以说这一种把书读厚的方法吧。
另一个特点就是和统计有关的特别是应用到R和Python等数据科学分析工具的知识总是很容易在网上找到,不必担心自己太过孤单,总是有人陪着你。当然没有一个好的浏览器是不行的,如果没有Google我的《数量生态学》笔记《环境与生态统计:R语言应用》不会写的这么好,如果说有点好的话。
为什么是机器学习?
在学习《环境与生态统计:R语言应用》的时候,每一个模型都在指向机器学习。也许这本书的作者足够诚实,他告诉我们:统计模型总是归纳性质的。那么我们忍不住会想:如果这种归纳在工作由机器来做那会如何呢?如果机器不仅能完成归纳工作,而且还可用其归纳出来的规律来预测未知的数据,特别是自己还能对预测和好坏做出评估并加以改正,这不是很好嘛?
如果要开始,那就只能以机器学习开始,历史已经走到了这个时间节点,。就像一切都已经准备好了,而机器学习当年的初恋,当你功成名就,而她有那么的触手可得,就不免让人产生一种再试一试的冲动。
早在2018年5月就买了这本书,一直在我的待读列表里面,迟迟没有动工。难道说时间不是到了吗?
为什么选择了Python?
其实我挺希望用R来做这件事的,R也是完全能够胜任的,而且我对R要熟悉的多。我到现在还是不明白一个人为什么能够用R了还非要用Python,特别是R就能完成他的日常工作?也许就像爱情是经不起蛊惑的,.这漫天的Python推荐课以及各式各样的【人生苦短,我用Python】的海报真的起作用了吧!十年后的自己给现在做一个决定的话,一门心思用R呢,还是开始学习Python?这真的是一个非此即彼的选择吗?
就让她开始吧。
那么问题来了:什么是机器学习?
在众多定义中我们选择这一个:统计学习(机器学习)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。在统计学上,机器学习就表现为两方面:分类与回归。
机器学习分类
监督学习:数据集是有标签的,就是说对于给出的样本我们是知道答案的,我们大部分学到的模型都是属于这一类的,包括线性分类器、支持向量机等等;
无监督学习:跟监督学习相反,数据集市完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类,这样就完全不需要lable,比如著名的k-meads算法就是无监督学习应用最广泛的算法;
半监督学习:半监督学习一般针对的问题是数据量超级大但是有标签数据很少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的而有一部分是没有的;
强化学习:一直激励学习的方式,通过激励函数来让模型不断根据遇到的情况做出调整;
实现机器学习的步骤:
- 得到一个有限的训练数据集合
- 确定包含所有可能的模型的假设空间,即学习模型的集合
- 确定模型选择的准则,即学习的策略
- 实现求解最优模型的算法,即学习的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测或分析
其中,模型、策略、算法被称为机器学习的三要素。
我将如何开始?
我将会以《机器学习实战》这本书为主,并参考《统计学习方法》来完成自己的机器学习入门之旅。似乎还差一门视频网课,目前还没有找到好的资源,主要是自己并不太喜欢上视频课。有的话也会学一些吧。然后就是网上的无限的资源了,之前的学习都是查查就能明白个大概,可是机器学习并不是这样的,要明白还有很长的路要走,好在我们已经开始了。
这本书的周期给的时间长一些吧,全书15章,每两周一章,每月两章,大概是8个月的时间,所以就定在2019年的国庆前。
参考:
机器学习该怎么入门?
机器学习基本概念梳理
Machine-Learning-in-Action-Python3
100-Days-Of-ML-Code