什么是机器学习
- 对于某给定的 任务T,在合理的性能度量方案P的前提下,计算机程序可以自主学习 任务T的 经验E随着提供大量的,合适的,优质的经验E,该程序对于任务T的 性能逐步提高。
- 机器学习的对象
任务Task,T,一个或多个
经验Experience,E
性能Performance,P
人类的学习
- 有监督学习
月亮的认知(夜空中最明亮的天体),知道是(1)还是不是(0)月亮 - 无监督学习
阅兵,没有0或1的认知 - 增强学习
走路(多次尝试,有正激励),踢球
机器学习的内涵和外延
- ML可以解决什么
给定数据的预测问题
-- 数据清洗/特征选择
-- 确定算法模型/参数优化
-- 结果预测 - 不能解决什么
大数据存储/并行计算
做一个机器人
ML的一般流程
- 数据收集(x[training text],y[labels])
- 数据清洗(爬虫)
- 特征工程
- 数据建模(调参,调包)
机器学习基础知识
- 向量空间模型
- 高维数据降维
- 相似度计算方法(欧氏距离、杰卡德相似系数、余弦相似系数、Pearson相似系数、相对熵K-L系数、Hellinger距离)
- 基础概率统计知识(最大似然估计)
- Taylor展示等在机器学习中的应用(数值近似计算、考察Gini系数的 图像、熵、分类误差率)
- 矩阵乘法与马尔科夫模型
- 特征值与特征向量
- rand7到rand10