一、机器学习工作流程
定义:新的数据---输入---模型(用历史数据进行训练得到)--预测未知属性
工作流程:用户数据--数据基本处理--特征工程--模型训练--模型评估(如果不合格会再返回进行数据的基本处理)--应用
数据处理:主要有缺失值和异常值得处理;数据集:可以划分为训练集、验证集和测试集
特征工程:提取(文字变成数字)、预处理(标准化)、降维(高幂次的系数减为0)
二、算法分类
根据数据集不同分为监督学习、无监督学习、半监督学习、强化学习
监督学习包括特征值和目标值,其中目标值分为连续性的回归和离散性的分类;无监督学习只有特征值;半监督学习同时包含目标值数据和无目标值数据;强化学习:目标是获取更多的累计奖励
线性回归算法、逻辑回归、决策树、聚类算法、朴素贝叶斯算法
三、模型评估
指标:分类模型评估 、回归模型评估
表现效果分为过拟合和欠拟合
过拟合是指:训练集上表现很好,测试集上表现不好
欠拟合是指:训练集上表现不好,测试集上表现也不好
欠拟合原因是模型过于简单特征太少,需要增加特征或者添加多项式特征
过拟合原因是模型过于复杂,特征过多,需要重新清洗数据,增大数据的训练量,正则化或者减少特征维度
正则化:通过限制高次项的系数
····
机器学习01
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 决策树和 K 近邻分类 机器学习介绍 假设用 P 来评估计算机程序在某任务类 T 上的性能,若一个程序利用经验 E...