机器学习核心笔记
一、基础框架
1. 核心定义
机器学习是通过数据驱动让程序自动学习规律,实现预测、分类、聚类等决策任务的学科,核心是构建模型并优化参数。
2. 核心分类
- 监督学习:用带标签数据训练,目标是预测标签(如回归、分类)。
- 无监督学习:用无标签数据训练,目标是发现数据内在模式(如聚类、降维)。
- 半监督学习:结合少量标注数据+大量未标注数据,平衡数据成本与模型效果。
- 强化学习:通过与环境交互、反馈调整策略,追求最优决策(如自动驾驶路径规划)。
3. 关键术语
- 特征:输入变量(如预测疾病的年龄、指标值);标签:监督学习的输出变量(如疾病阳性/阴性)。
- 训练集:模型学习数据;测试集:验证模型泛化能力;样本:单条数据记录。
二、数学基础(核心必备)
1. 概率与统计(建模核心)
- 概率分布:描述随机变量取值概率,核心用正态分布(数据建模)、二项分布(离散场景)。
- 贝叶斯定理:计算条件概率,公式核心为 P(A|B)=\frac{P(B|A)P(A)}{P(B)},用于贝叶斯分类器。
- 最大似然估计(MLE):通过数据最大化似然函数,求解线性/逻辑回归参数。
2. 线性代数(数据处理基础)
- 矩阵运算:神经网络权重计算、PCA降维的核心工具。
- 特征值分解(EVD)/奇异值分解(SVD):提取数据关键特征,用于降维、图像压缩。
3. 优化理论(模型训练核心)
- 损失函数:量化预测误差,分类用交叉熵、回归用均方误差(MSE)、SVM用Hinge损失。
- 梯度下降:迭代调整参数最小化损失,是神经网络、回归模型的核心优化方法。
- 凸优化:寻找全局最小值,保障Lasso/Ridge回归、SVM模型收敛。
三、核心算法(分类型梳理)
(一)监督学习(应试高频)
1. 回归算法(预测连续值)
- 线性回归:构建特征与连续目标的线性关系,模型 y=\beta_0+\beta_1x_1+...+\beta_nx_n+\epsilon,优化用最小二乘法/梯度下降。
- 正则化变体:Lasso(L1正则化,可做特征选择)、Ridge(L2正则化,防止过拟合),适配高维数据。
2. 分类算法(预测离散标签)
- 逻辑回归:二分类核心,用Sigmoid函数映射为概率,模型 P(y=1|x)=\frac{1}{1+e^{-(\beta_0+\beta^Tx)}},多分类用Softmax扩展。
- 决策树:按特征递归划分数据,分裂标准用信息增益(ID3)、基尼指数(CART),可解释性强但易过拟合。
- 支持向量机(SVM):寻找最大间隔超平面,用核技巧(高斯核、多项式核)处理非线性问题,适配小样本场景。
3. 集成学习(提升模型精度)
- 随机森林:Bagging集成多棵决策树,自助采样+随机选特征,降低过拟合,可做特征重要性分析。
- 梯度提升树(GBDT):Boosting迭代优化残差,代表实现XGBoost/LightGBM,高频用于竞赛、风控。
(二)无监督学习(数据挖掘核心)
1. 聚类算法(分组无标签数据)
- K-means:划分K个簇,最小化簇内方差,需预设K值,适配客户分群、图像分割。
- DBSCAN:基于密度聚类,可发现任意形状簇,用于异常检测(如网络入侵)。
2. 降维算法(压缩特征维度)
- PCA:线性变换保留最大方差,核心是协方差矩阵特征值分解,用于高维数据可视化。
- t-SNE:保留数据局部结构,适配文本、图像的二维可视化(比PCA可视化效果更优)。
3. 关联规则
- Apriori算法:发现频繁项集,生成关联规则(如“啤酒-尿布”),用于购物篮分析、商品推荐。
(三)深度学习入门
- CNN(卷积神经网络):用卷积层提取局部特征,适配图像分类、目标检测(YOLO),经典架构ResNet。
- RNN/LSTM:处理序列数据(文本、语音),LSTM用门控机制解决长程依赖,用于语音识别、文本生成。
- Transformer:基于自注意力机制,并行计算效率高,衍生模型BERT(NLP理解)、GPT(文本生成)。
四、模型评估与优化(应试必记)
1. 评估指标
- 分类:准确率、精确率、召回率、F1分数、ROC曲线+AUC值(核心看AUC,越大效果越好)。
- 回归:MSE、平均绝对误差(MAE)、R²系数(衡量拟合优度,接近1最优)。
2. 核心优化手段
- 交叉验证:k折交叉验证(常用5折/10折),避免数据过拟合,保障泛化能力。
- 超参数调优:网格搜索(遍历参数)、随机搜索、贝叶斯优化(高效找最优参数)。
- 偏差-方差权衡:高偏差(欠拟合)增模型复杂度,高方差(过拟合)用正则化、集成学习。
五、特征工程(数据预处理关键)
- 特征缩放:标准化(均值0方差1)、归一化(缩至[0,1]),适配SVM、神经网络等对尺度敏感的模型。
- 特征编码:类别特征用独热编码(无顺序)、标签编码(有顺序)。
- 特征选择:过滤法(基于相关性)、包装法(基于模型性能)、嵌入法(正则化内置选择)。