一、机器学习工作流程
定义:新的数据---输入---模型(用历史数据进行训练得到)--预测未知属性
工作流程:用户数据--数据基本处理--特征工程--模型训练--模型评估(如果不合格会再返回进行数据的基本处理)--应用
数据处理:主要有缺失值和异常值得处理;数据集:可以划分为训练集、验证集和测试集
特征工程:提取(文字变成数字)、预处理(标准化)、降维(高幂次的系数减为0)
二、算法分类
根据数据集不同分为监督学习、无监督学习、半监督学习、强化学习
监督学习包括特征值和目标值,其中目标值分为连续性的回归和离散性的分类;无监督学习只有特征值;半监督学习同时包含目标值数据和无目标值数据;强化学习:目标是获取更多的累计奖励
线性回归算法、逻辑回归、决策树、聚类算法、朴素贝叶斯算法
三、模型评估
指标:分类模型评估 、回归模型评估
表现效果分为过拟合和欠拟合
过拟合是指:训练集上表现很好,测试集上表现不好
欠拟合是指:训练集上表现不好,测试集上表现也不好
欠拟合原因是模型过于简单特征太少,需要增加特征或者添加多项式特征
过拟合原因是模型过于复杂,特征过多,需要重新清洗数据,增大数据的训练量,正则化或者减少特征维度
正则化:通过限制高次项的系数
····
图片.png