西瓜书学习记录 I

机器学习的根本任务是预测

machine learning
≈ looking for function

机器学习与人工智能、深度学习的关系

  • 人工智能:机器展现的人类智能
  • 机器学习:计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法。
  • 深度学习:实现机器学习的一种技术

机器学习可以解决什么问题

  • 给定数据的预测问题
    ✓ 数据清洗/特征选择
    ✓ 确定算法模型/参数优化
    ✓ 结果预测
  • 不能解决什么
    ✓ 大数据存储/并行计算
    ✓ 做一个机器人

评价指标

样本数除以所有的样本数,通常来说,正确率越高,分类器越好;

  • 1)正确率(accuracy):正确率是我们最常见的评价指标,accuracy = (TP+TN)/(P+N),这个很容易理解,就是被分对的
  • 2)错误率(error rate):错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以accuracy =1 - error rate;
  • 3)灵敏度(sensitive):sensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力;
  • 4)特效度(specificity):specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;
  • 5)精度(precision):精度是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/(TP+FP);
  • 6)召回率(recall):召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率与灵敏度是一样的。
  • 7)F1-score 就是一个综合考虑precision和recall的metric: 2precisionrecall / (precision + recall)

误差分析及过拟合/欠拟合

欠拟合的处理主要有哪些方式:

  • 添加新特征
  • 增加模型复杂度
  • 添加多项式特征项
  • 减小正则化系数

处理过拟合?

  • 增大训练数据的量
  • 利用正则化技术
  • 对数据进行清洗
  • 减少迭代次数
  • 增大学习率

Machine Learning Summary

Rather than giving the program the rules,an algorithm finds theryles for us.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容