1、人工智能三大概念
1.1、基本概念
- 人工智能(
AI):AI is the field that studies the synthesis and analysis of
computational agents that act intelligently - 机器学习(
ML):Field of study that gives computers the ability to learn without being explicitly programmed - 深度学习(
DL):也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物
1.2、之间关系

2、机器学习的应用领域和发展史
2.1、发展历史
1、专家系统占主导
1950:图灵设计国际象棋程序
1962:IBM Arthur Samuel 的跳棋程序战胜人类高手(人工智能第一次浪潮)
2、主要用统计模型解决问题
1993:Vapnik提出SVM
1997:IBM 深蓝战胜卡斯帕罗夫(人工智能第二次浪潮)
3、神经网络、深度学习流派
2012: AlexNet深度学习的开山之作
2016:Google AlphaGO 战胜李世石(人工智能第三次浪潮)
4、大规模预训练模型
2017年,自然语言处理NLP的Transformer框架出现
2018年,Bert和GPT的出现
2022年,chatGPT的出现,进入到大模型AIGC发展的阶段
2.2、AI发展三要素
数据、算法、算力三要素相互作用,是AI发展的基石
•CPU:主要适合I\O密集型的任务
•GPU:主要适合计算密集型任务
•TPU:专门针对大型网络训练而设计的一款处理器
3、机器学习常用术语
1、样本(sample) :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录
2、特征(feature) :一列数据一个特征,有时也被称为属性
3、标签/目标(label/target) :模型要预测的那一列数据。本场景是就业薪资
4、训练集(training set) :用来训练模型(model)的数据集
5、测试集(testing set):用来测试模型的数据集
4、机器学习算法分类
1、有监督学习
输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的,数据集需要标注数据的标签/目标值
2、无监督学习
输入数据没有被标记,即样本数据类别未知,没有标签,根据样本间的相似性,对样本集聚类,以发现事物内部结构及相互关系。
3、半监督学习
让专家标注少量数据,利用已经标记的数据(也就是带有类标签)训练出一个模型,再利用该模型去套用未标记的数据,通过询问领域专家分类结果与模型分类结果做对比
4、强化学习
通过构建四个要素:agent,环境状态,行动,奖励,agent根据环境状态进行行动获得最多的累计奖励。

5、机器学习建模流程

1、获取数据:搜集与完成机器学习任务相关的数据集
2、数据基本处理:数据集中异常值,缺失值的处理等
3、特征工程:对数据特征进行提取、转成向量,让模型达到最好的效果
4、机器学习(模型训练):选择合适的算法对模型进行训练
5、根据不同的任务来选中不同的算法;有监督学习,无监督学习,半监督学习,强化学习
6、模型评估:评估效果好上线服务,评估效果不好则重复上述步骤
6、特征工程
6.1、概念
特征Feature:对任务有用的属性信息,
特征工程:利用专业背景知识和技巧处理数据,让模型效果更好
6.2、特征工程的内容
1、特征提取 feature extraction :特征向量
2、特征预处理 feature preprocessing:不同特征对模型影响一致性
3、特征降维 Feature decomposition:保证数据的主要信息要保留下来
4、特征选择 feature selection :从特征中选择出一些重要特征训练模型
5、特征组合 feature crosses:把多个特征合并组合成一个特征
7、模型拟合
拟合 fitting:用在机器学习领域,用来表示模型对样本点的拟合情况
1、欠拟合 under-fitting:模型在训练集上表现很差、在测试集表现也很差
原因:模型过于简单
2、过拟合(over-fitting):模型在训练集上表现很好、在测试集表现很差
原因:模型太过于复杂、数据不纯、训练数据太少
3、泛化(Generalization):模型在新数据集(非训练数据)上的表现好坏的能力。
4、奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取
举个例子
欠拟合(学生A):只草草翻了一遍课本目录,没有理解任何知识点和解题方法。
结果:无论是做平时的练习题(训练集),还是参加高考(测试集),成绩都非常差。
良好拟合(学生B):系统学习了知识点,掌握了核心解题思路和规律,并能举一反三。
结果:平时练习成绩好,高考成绩也不错。
过拟合(学生C):死记硬背了所有历年真题和模拟题的答案,但没有理解题目背后的原理。
结果:做以前做过的题(训练集)几乎满分,但高考遇到新题型(测试集)就束手无策。