在我看来,机器学习是对世界的一种建模。
也许从不同角度来说,会有各种不同的对机器学习的理解。它是人工智能的一个分支,是模式学习的一个子类,是那些不愿承认统计学习的奇葩搞出来的奇葩东西,是功利的偏向连接主义学派的应用产物。
无论如何,机器学习都仅仅是一种对世界的建模方法而已。
机器学习总体来说只做两件事:帮人预测,帮人看懂数据。
预测就是在现有数据中帮人做原来只能用人做的工作。例如一个内容发布网站,如简书,每个人都写各种文字,那么这些文字应该有什么样的标签?应该放在什么样的分类?应该推荐给谁?这些都可以通过人对文章的理解来预测,而机器学习就是用来自动化这个过程的。
机器学习的预测模型最重要的是定义好输入和输出,以这个例子来说,输入可以包括文章标题,文章内容,甚至文章长度,作者是谁,几点发布的。这些输入都可能对结果有影响,例如某个作者,白天只发情感,晚上才写技术文章,那么模型就可以通过发帖时间来更好的学习到这个行为。
还比如,技术文章可能短,感情文章可能长,那么长度这个信息就很重要。
对对文本和语音的处理,也可以被认为是自然语言处理的一项工作。
机器学习的另一个用途是帮助人类理解数据,主要的方法是降维与聚类。
二维的东西可以画为清晰的表格。
三维的东西可以画为一个3D模型。
四维的东西勉强可以画为一个带颜色的3D模型。
五维……交给机器吧。
降维的好处就是把多维的东西降维很低的维度,例如1000维度变为2维,这样的表格绘制出来依然可以给我们一些对数据的Sense。
另一个是聚类,聚类就是可以把数据自动的分为几类,虽然这种分类不一定是我们真正想要的,但是它依然可以给我们一些感觉。
例如把一群人分为两类,可以按照男女,可以按照身高,可以按照年龄,可以按照喜好,所以到底怎么聚类,也取决于我们数据的特征,如果最终聚类的结果可以给我们一些对数据的印象,如果它结果好的话,甚至可以直接使用作为分类依据。
我认为做机器学习工程有两件事儿最重要,第一件事儿是能了解所有模型,第二件事儿是看到数据之后能快速联想起应该使用什么模型来给自己Sense。