1.3The Learning Problem- Applications of Machine Leanring|机器学习基石（林轩田）-学习笔记

文章原创,最近更新：2018-06-26

学习链接:
1.3 The Learning Problem- Applications of Machine Leanring

1.Daily Needs: Food, Clothing, Housing, Transportation(日常需求：食品，服装，住房，交通)

下面介绍一下机器学习在哪些领域可能会有所运用.因此挑了四个比较常见的运用场景:食品，服装，住房，交通.
1)那机器是怎么影响吃的呢?

下面来看看机器学习是怎么改变我们吃东西的方式,具体如下:
这是一篇论文,是让机器从推特里面的资料去预测学习.比如哪家餐厅很好吃,哪些餐厅吃了居然拉肚子.等等这些资料.

这些资料经过机器的分析,比如语义的分析,位置的分析,最后得到的技能是很多,比如取这家餐厅吃饭到底有多容易食物中毒.食物干不干净,好不好吃,都是非常好玩的研究.

以前都是网上查询或者朋友推荐餐厅,现在机器自己学习,并且能告诉你答案.

2)那机器是怎么影响穿衣服的呢?
某个国外大学教授有家时尚公司请他去做顾问,希望有个系统怎么推荐顾客搭配衣服比较好?

教授对时尚也是不是很懂,因此推荐了他们机器学习,从衣服相关的销售数字,还有顾客的调查,比如喜欢怎么样穿搭衣服.从这些分析之后,让机器学到技能,从这样开始要怎么搭配衣服?才会符合顾客的喜好.

3)那机器是怎么影响住的呢?
这个是2012年的论文,盖房子要节能减碳,改好房子之后,这个房子的能源消耗怎么样?是开冷气还是常常开暖气,或者有多少耗能等等?这是节能减碳第一步.

从房子到设计需要知道盖得有多好,这个是不太容易的事情.只能凭借住的人的意见,比如今天西晒的时候,下午比较好等等住的感受.

以前盖了很多房子,比如建筑形态/特征,有多好等等,把这些资料提供给机器之后,机器学习就可以学到什么技能的呢?

比如可以预测房子盖好之后的耗能状况,建筑师就可以根据机器的预测修改自己的设计,让它符合能源的规范.

4)那机器是怎么影响行的呢?
现在很多公司跟单位都发展无人驾驶的自动车的科技.无人驾驶就是可以变式的自动交通.比如小心行人,看到红灯要停等等.

过往有办过机器人学习的方法来提升无人驾驶变式的准确率.提供给机器人的资料是,拍下来的交通资料,提供给机器.在真正上路的时候可以正确的辨识.

除了衣食住行等四大需要,其实还有很多很多其他的需求,现在再讲讲育乐.

2.Education

现在有个系统可以让学生在上面答题目.从答题目的过程,就慢慢了解学生会什么题目以及不会什么题目?让学生多做做不会的题目.会的题目少做,太难的题目晚一点再学习.

如果系统给学生一个没有见过的题目的话,系统能够预测学生到底会还是不会答题.可以从学生的答题记录以及相关的历史资料自动的进行判断.

如果人类的话,我怎么想象这个问题,比如出这个题目,这个题目有些难度,学生的脑袋会有这个题目的难度等级.

如果这个等级的难度比题目来得高的话,那么这个题他可能就会答对.
如果这个等级的难度比题目来得低的话,那么这个题他可能就会答错.

因此我们可以设计相关的机器学习演算,这个方法是这样的:

给机器提供9百万的资料,这些资料都是来自3000多个学生的答题历程记录等等.
机器判断这个时间点,学生的学习程度怎么样?还有这道题根据众多的学生答过,因此判断是否难题?

这种方式有点像逆向工程.回归学生的学习程度以及题目的难度怎么样?从这两方面让机器去预测.

这是机器学习的一种方法.从我们对题目的判断进行出发.

以下是台湾大学2010年KDDCup(全球最重要的机器学习资料)比赛,从那么多资料进行学习,然后看机器的表现怎么样?台湾大学当时拿到了机器学习的冠军.

3.Entertainment: Recommender System

下面来讲讲机器学习是怎么影响我们的娱乐的?

下面要将的是推荐系统,比如如何将符合他们要的电影推荐给他们的使用者.每个人的喜好都不一样,我们的系统有没有很聪明的方法可以推荐给使用者呢?

这个系统怎么开始设计呢?需要得到使用者喜欢哪些电影?比如看过电影的评价,以此判断使用者会不会给一部从未看过的电影很高的分数.会的话就会推荐给使用者,不会就不会推荐给使用者.

在2006年的时候有个Netflix公司,他们公司将他们的资料拿出来,办了一个比赛,这个资料大概有1亿多条,这个资料来自于48万个使用者,一共大概有1万7千多部的电影.

订的比赛规则是这样的,如果机器算法比他们的系统好10%,就给1百万的奖金.因此吸引了上千上百万的队伍来比赛.

在2011年的时候,雅虎在2011年的KDDcup也拿出了他们音乐收集的资料.这个资料差不多有2亿5千多万笔记录,总共有1百万个使用者.评分歌曲大致有62万条.

机器从这些资料学到东西的话,相当于学到了我们的喜好.

接下来机器是怎么学习我们的喜好的呢?

下面来将一下机器学习可能的模型,接下来思考的是,我们是怎么判断喜不喜欢一部电影的呢?

比如这部电影的特征是什么?动作,爱情片?某个知名演员?这些特征组成一部电影.

我们的喜好可以描述成另外一串特征的数字

比如我喜欢动作片,可能在动作片评分这一栏的数值就会比较高一点.
比如我不喜欢爱情片,可能在爱情片评分这一栏的数值就会比较低一点.
比如我喜欢某个演员,可能在评分这一栏的数值就会高一点.

我们的特征数字用圈圈来表示描述的大小,比如蓝色的圈圈,我喜欢动作片,这个圈圈就会大一点.

电影的特征数字也描述成特征值,有这个特征圈圈就会变得很大,否则就会很小.

将我们的特征数字与电影的特征数字进行相乘.

如果相乘的分数加起来特别的高,那么我们就会给特别高的分数.
如果相乘的分数加起来特别的低,那么我们就会给特别低的分数.

这个公式潜藏的是从我们的特征以及电影的特征,可以得到电影的最后评分.

而机器只有最后的评分,没有我们这些特征.机器通过最后的评分反过来翻过来推我们的特征是什么?

有了这些之后,假如一部他也没看过的电影,我们就把这个人的特征以及这部电影的特征,相乘起来.这个人到底会给这部电影多少分?

这是一个很简单的模型,来描述我们会给电影多少分?

在2011年,雅虎办的比赛,台湾大学又获得了第一名.

4.Fun Time

下面来看看机器学习在哪个领域是用不到的.

正确的答案是4

其实所有的领域都用得到机器学习.

财经可以预测股票的涨跌.
医药可以预测药效是怎么样的?
法律可以自动分析法律的摘要,因此进行阅读.

1.3The Learning Problem- Applications of Machine Leanring|机器学习基石（林轩田）-学习笔记