写在最前面,本文集文章,主要参考自
https://github.com/apachecn/MachineLearning
该随笔主要是根据阅读和理解学习文章中的含义,边学边写,在此特别感谢各种资料中提供帮忙的各路大神,也欢迎大家一起交流学习。
机器学习(Machine Learning)涉及多个学科,如高等数学,线性代数,概率学,统计学等,专门研究计算机怎么模拟或实现人类的学习行为,以获取新的技能或知识。通过海量的数据来获取有用的信息是机器学习的特性。
机器学习是人工智能的的一门学科,如今机器学习已经有了广泛的应用,如数据挖掘,计算机视觉,自然语言处理,搜索引擎,信用卡逾期分析,语言和手写识别等。
机器学习的场景
1. 模式识别
2. 机器学习
3. 深度学习
我们这里主要讨论的是机器学习,如果大家感兴趣,可以同步看一些吴恩达的课程,虽然有点深奥(Coursera),有些免费可能,也有些付费的,同时还可以在有一些基础后在主流数据分析比赛平台上一试身手,可以边学边参加,这些平台上有很多经典的数据分析和机器学习案例,如Kaggle的泰坦尼克号,对大家看书也有很大的帮助。
其实机器学习的材料非常非常多,各式各样的教程和视频,主要还是先理解算法的含义,然后根据自己的业务多进行尝试,如果是单纯为了学习机器学习,而暂时没有实战的,建议多参加比赛,积累经验。
机器学习的组成
下面我们会简单说一下机器学习的分类,这个分类吴恩达大神(应该说是大仙更恰当)的视频中说的非常清楚,也有一些经典的例子,可以先去看一下,入个门。
机器学习的主要任务是分类和回归,分类是将数据划分到合适的类别中,如垃圾邮件分类(二分类),手写字体识别(多分类),回归用于预测数值型数据。
监督学习(supervised learning)
必须确定目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系(包括回归和分类)
样本集:训练数据+测试数据
监督学习需要注意的问题:偏置方差权衡,功能的复杂性和数量的训练数据,输入空间的维数,噪声中的输出值
知识表示:规则集、概率分布、训练集中的实例
非监督学习(unsupervised learning)
在机器学习,无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构。因为提供给学习者的实例是为标记的,因为没有错误或报酬信号来评估潜在的解决方案。
非监督学习包括的类型:聚类、密度估计
有了基本的概念,下一节我们将学习机器学习的基本处理逻辑,大多数算法都是基于这个逻辑。
2018.06.12