看到很多的小伙伴对于机器学习有这么大的兴趣,同时发现也有很多刚刚接触机器学习的小伙伴并不了解什么是机器学习.所以我想尽自己的微薄之力来谈谈我对与机器学习的理解.
不聊专业,只正三观.也感谢各位的多多指导.
好,现在让我们看看什么是机器学习.其实呢,我们可以用一句话就可以把机器学习概括出来
机器学习就是利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策.那么在这句话中呢,有几个关键的要素需要知道.首先,机器学习要解决什么问题,这些问题呢实际上就是对于未来不确定场景的决策问题.比如说我们想知道明天的太阳从哪个方向升起,这其实就属于一个确定性的场景,因为太阳他永远是从东方升起从西方落下.这个问题是独一无二的,你不需要去猜,这个就属于确定性的场景.与之相对,还有一些不确定的场景,比如说我们公司下个季度的业绩销量是个什么样子,是会涨,还是会跌?涨的话涨幅会是多少.这些呢其实都是受很多客观的因素所决定的,这些呢就是属于不确定性的场景.那么我们机器学习就是对这样的一种不确定的场景进行一种判断,进行一种决策.这是机器学习要解决什么问题.
那么,机器学习是怎么解决这些问题的呢?它靠的就是规律.那么这些规律又是从哪里来的呢?他是靠计算机从历史数据中挖出来的.这就是机器学习的几个主体,这里边呢有几个因素,第一呢干机器学习的主体是计算机,不是人.与之相对的呢就是还有一种是通过人来观察数据中的一些规律.因为这些主体的不同,这就意味着我们现阶段对应的两种岗位,数据分析和机器学习的不同.数据分析呢,他也是从数据中去找到一些规律,但是这个活动呢,是靠人来驱动的,也就是靠那些所谓的数据分析师所驱动的,因此呢,这种的数据分析的方式他的学习效果很大程度上是归类于这个参加数据分析的这个数据分析师本身的经验,本身的知识水平所来决定的.那么机器学习实际上就是想要摆脱掉对于这样的数据分析师,这样的专家的依赖,我们就完完全全的靠机器从实际中挖规律.好,这就是我们的第一个主体.
第二个主体呢,就是数据,因为呢机器学习本身就是一个对于学习的框架或者就是一套算法,本身呢他也不能去做无米之炊,他必须也要有原材料,这个原材料呢就是历史数据.并且这个数据量越大的话,我们找出的这个数据量会越精准,能找到一些更微妙的规律出来.另外一个要素呢就是我们要找出规律,这个规律到底是个什么样的东西呢?这个规律落地后到底是中怎样的表现呢?那现在先让我们说从数据中寻找规律.从数据中寻找规律他是怎么找的呢?这里边牵扯的呢就是一些机器学习的算法了.并且这些不同的算法分辨出的规律分辨出的规律其实是不一样的,那么大多数情况下我们找出的这个规律落实到地的话你可以就是看作是找出了一个数学函数和数学公式,类似于y=ax+b,这样的形式,当我们把这样的自变量X带入以后会给我们找出一个结果Y来,这就是所谓的寻找规律.那么我们是怎么把这些规律应用到决策中的呢?换句话说,这些规律你是怎么落实到程序中呢?那么这时候可能会很多程序员就想我们找出规律以后,这时候程序员把这些规律转变为一些判断代码,或者函数之类的,这是我们程序员最擅长干的事.但其实呢,这个规律的落地不是这么样子的,这些都是我们的机器学习的系统自动生成的,所以在机器学习中,那些传统的,只会写if else的程序员呢会面临很大的压力.
好,那么问题又来了,既然机器学习就是从历史数据中寻找规律,那我们就稍微把从数据中找规律这件事稍微探讨下,其实坦白讲这件事和机器学习没有半毛钱关系,机器学习的历史也不过即使那几十年,他真正火起来也不过是这个大数据概念火起来以后这么七八年的历史,但是呢人们从数据中去寻找规律的这件事人们已经做了千百年了,大家如果对数据有一定了解的话就应该知道有专门的学科像是概率论和数据统计之类的,那么呢我们其实觉得概率论这个学科其实就是机器学习的一个基石,数据统计呢本身就是从数据中寻找规律,那么我们不妨思考下这个统计学和我们目前机器学习的处理方法有什么不同.这个统计学在我看来他的一个发展的瓶颈本身就在于当时的一个计算能力的限制,比如说当时的计算方式大多数都靠人工和和一些简单的计算器,也就是近些年采用一些低端的计算机,你不妨想一下,如果现在给你一万个数字求一下他的均值,这个对于计算机来说,可能不过就是一毫秒的事,但是如果你要是靠人的手算的话这可能就是那一个比较恐怖的活动了.因为长时间受限于计算能力的限制,所以呢统计学长期以来一直用一个采样的方式来处理这些数据,比如说我现在有一万个数据球平均数,但是我现在不能计算这么多,我就从当中抽取100个数字来计算这100个数字的平均数然后呢我就根据这个样本的结果,去吧这个结果反扑给这个整体,那么既然是他抽取的是和这个部分的整体,那么他这个个体是否能够很好的去表达这个整体的一个结果呢?这样呢有还得去验证下你这个数据靠不靠谱.所以呢现在统计学的对于数据的处理流程一般就是先抽样,然后再描述统计,得出一些结论后然后再去做假设检验,去做统计推断,所以呢这是这个统计学的一个传统的统计方式.
因为现在呢,我们已经基本上不再考虑机器的运算能力的问题了,我们现在单机的处理能力都已经如此强大了,更何况我们还有一些集群.所以呢我们现在就不用考虑数据量的问题,更不会去采用一种抽样的技术了.我们直接全量的数据进行处理.上述呢,就是我们对于从数据中发展规律的一个历史.
现在我举一个小例子,比如说我们现在想要分析下某个地区的气温的变化并且来预测下未来的他的气温的一个变化,对于这个问题呢,我们更好地就是去收集这个地方一些的气温的历史的数据.比如说像温度,空气湿度,光照度等等,然后呢我们可以吧这些数据用一些可以观察的展示化的方式展示出来,通过这个可视化的方式发现其中会不会有什么的规律
比如说气温的上下波动,气温一直以来以年为单位是总体上升的,这些呢都是我们人类通过观察数据来主观的做出了一个判断,主观的感受呢,是没有办法进行计算的,那我们就要做这个数据分析呢,我们首先就必须要对其进行量化,只有量化了以后我们才可以去做计算,我们才可以去做比较,那我们就希望的呢就是从当中寻找出一个规律,这个呢实际上我们就是想要得到一个函数,这个函数呢就可以用函数曲线来表示出来,那这个我们就希望这个函数曲线可以被很好的符合刚才我们对于气温可视化的一个正确的总体趋势,或者说这个曲线可以很好的和我们收集到的数据的散点图拟合在一起,但是呢这个寻找模型在我们这个问题中看起来比较简单,毕竟我们的这个数据的维度只有几个维度,也就是气温,空气,光照这些,但是一旦到了四维,等更多维度呢?在我们的实际工业中,我们一般都是采用了上百维的,当有这么多维度的时候,实际上你是很难可以用可视化的角度去展现的,你也很难能从图形中的规律中发现规律的,那这个时候我们更多地就是靠完全的数学运算了.
好的,现在暂时想到的就有这么多.也同时感谢各位的多多支持.也欢迎各位多多指教啦!