以决策树为例看传统监督学习过程

一、导入数据

  1. 一般使用pandas来处理 csv格式 或 pickle模块处理pickle格式
  2. 将获取的数据处理为训练特征(features) 和 目标(target)两部分

二、分析数据

  1. 计算相关的数学特征,包含不限于 均值、极值、中值、方差/标准差等。
  2. 处理数据集中的异常值,视项目对异常值的友好程度而定
  3. 数据分割,处理为训练数据和测试数据

三、确定模型衡量标准

  1. 确定指标,如使用R-Square作为决策树模型评分标准

四、分析模型表现

  1. 观测不同参数下,模型在训练集和验证集上的表现。如绘制学习曲线和复杂度曲线,观测不同参数值对模型的影响

五、选择最优参数、获取最优模型

  1. 如使用网格训练法和交叉验证确定最优参数、并获取最优模型

六、作出预测

  1. 使用测试集进行测试,并对测试结果进行评分
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。