开始表演
什么是机器学习
顾名思义,不就是让机器去学习,你溜出去玩的黑科技嘛。
嗯,正经点,机器学习我理解是程序通过一系列算法去学习已有的经验,从而不断优化达成目标的一种工程应用。机器学习的步骤大同小异,分为以下几步:
1.搭建数据集:获得一系列的历史数据,比如2019年之前的房价(举例子啊)等
2.搭建学习模型:根据不同的场景搭建不同的训练模型,设定合适的目标(有的算法没设定目标,下面会介绍),房价的话可以搭建回归模型。
3.训练模型:将部分数据集(训练集)提供给模型去学习,通过模型中算法的最优策略,不断去优化自己(比如只提供17年之前的数据让它学习)
4.检验模型:用一些新的数据(测试集)去检测模型,估测它的准确率,从而想方法去修正模型。(这里可以用18,19年的数据去检验模型,和真实数据作比较)
机器学习算法分类
监督学习和无监督学习(核心都是预测)
监督学习顾名思义就好比说,你妈妈给你下了个目标,好好学习,下一次不考90分就不许吃饭(开个玩笑啊),这时候你学习就有了一个目标,考90分。有目标了吧
机器也是这样,监督学习就是你给机器一个目标,让它完成学习,比如一个有很多猫和狗的图片数据集,你已经在数据集里面告诉机器哪些是狗,哪些是猫,让它学习自己去分辨。最后你给机器一张新图片,它来判断是狗是猫.这就是通常所说的监督学习.而无监督学习,与之相反,就是没有目标.用上面的例子来说,就是你给了很多猫和狗的图片给机器,但是没告诉它哪些是猫哪些是狗,然后机器自己去学习,看看会有什么结果.
官方解释:监督学习算法知道要预测什么,即目标的分类信息
无监督学习:数据没有类别信息,也没有给定目标值分类和回归:
它俩都属于监督算法,只不过是分类适合于离散值的预测,比如说猫和狗(看作0和1嘛),帅不帅啊等等;而回归呢适合连续值得预测,不如明天温度(天气好坏属于离散啊),房价啊等.
聚类和密度估计:
聚类就是需要把数据划分为离散的组,反之密度估计.意思和分类与回归差不多
PS:至于强化学习,半监督学习,在线学习啊这些.等到深度学习时在一起深入了解吧
后面的学习内容
监督学习:线性回归,k-近邻算法,朴素贝叶斯,支持向量机,决策树等
无监督学习:k-均值,最大期望算法等
算法学习步骤分三步:首先是算法背后的数学原理,其次用sklearn和tensorflow实现算法,最后一步是用Numpy,Pandas,Matplotlib实现上述算法
浮世一浪
·