机器学习系统的设计

一、首先要做什么

  1. 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法。
  2. 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择。
  3. 进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势。

二、查全率和查准率

查准率(Precision)和查全率(Recall) 我们将算法预测的结果分成四种情况:

  1. 正确肯定(True Positive,TP):预测为真,实际为真
  2. 正确否定(True Negative,TN):预测为假,实际为假
  3. 错误肯定(False Positive,FP):预测为真,实际为假
  4. 错误否定(False Negative,FN):预测为假,实际为真

查准率=TP/(TP+FP)。
查全率=TP/(TP+FN)。
查全率和查准率之间需要做一个权衡。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容