斯坦福大学吴恩达教授的机器学习课程堪称经典,参考该课程,来和大家一起入门学习机器学习这一领域。
机器学习是什么?
不存在一个被广泛认可的定义
- 在进行特定编程的情况下,给予计算机学习能力的领域。
- 一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E之后,经过P评判,程序在处理T时的性能有所提升。
举个例子:
下棋训练
E:程序上万次的自我练习的经验
T:下棋
P:对局时赢得比赛的概率
监督学习
最常见的一种机器学习问题。
我们给学习算法一个数据集,这个数据集由“正确答案”组成。举房子价格的例子,提供一系列房子的数据,也就是给出每个样本的正确价格—(实际售价)然后运用机器学习算法,算出更多的正确答案。
即回归问题:试着推测出一个连续值的结果,即房子的价格。
分类问题
举例:肿瘤检测
根据肿瘤尺寸、患者年龄、肿块密度等特征来预测离散输出,分别为良性、第一类第二类或第三类癌症等。
支持向量机:利用巧妙的数学技巧,让计算机处理无限多个特征。
无监督学习
无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以需要从这样的数据集中找到某种结构。无监督学习算法可能会把这些数据分成两个不同的簇---聚类算法。
聚类是无监督学习的一种。
应用实例:
- 用于组织大型计算机集群。对于大型的计算机集群,想解决什么样的机器易于协同的工作,使得数据中心工作的更高效。
- 社交网络的分析。已知朋友的信息,自动的给朋友分组。
- 市场分割。根据大型数据库中存储的消费者信息,自动发现市场分类,把顾客划分到不同的细分市场,从而自动并更有效地销售或不同的细分市场一起进行销售。
总而言之,必须让算法从数据中发现一切。