什么是机器学习
一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值P,当且仅当,有了经验 E 后,经过 P 评判,程序在处理 T 时的性能有所提升
机器学习包含两类经典任务:监督学习和无监督学习
监督学习
监督学习关注对事物未知表现的预测,一般包括分类(classification)问题和回归(regression)问题
• 分类问题便是对其所在的类别进行预测,类别既是离散的,同时而是预先知道数量的,例如通过对人的身高,体重等数据预测其性别,性别不仅是离散的(男,女)还是知道数量的
• 回归同样是预测问题,只是预测的目标往往是连续变量,比如根据房屋的面积,位置等数据预测房屋价格
无监督学习
无监督学习倾向于对事物本身特性的分析,常用的技术包括数据降维(dimensionality reduction)和聚类问题(clustering)等
• 数据降维是对事物的特性进行压缩和筛选,相对比较抽象,例如对图像进行降维,保留最具有区分度的像素
• 聚类则是依赖数据的相似性,把相似的数据样本划分为一个簇,大多数情况下不会知道每个簇的数量和具体含义,例如电商网站对用户信息和购买习惯进行聚类分析,针对性投放广告和促销信息
经验
经验就是对学习任务有用的特定信息,而我们通常把这些反映数据内在规律的信息叫做特征
对于监督学习来说,经验包括特征和标记/目标两个部分,一般用一个特征向量来表示一个样本;标记/目标的表现形式则取决于监督学习的种类
无监督学习没有标记/目标,因此无法从事预测任务,却更适合对数据结构的分析