2025-11-24

机器学习核心笔记

一、基础框架

1. 核心定义

机器学习是通过数据驱动让程序自动学习规律，实现预测、分类、聚类等决策任务的学科，核心是构建模型并优化参数。

2. 核心分类

- 监督学习：用带标签数据训练，目标是预测标签（如回归、分类）。

- 无监督学习：用无标签数据训练，目标是发现数据内在模式（如聚类、降维）。

- 半监督学习：结合少量标注数据+大量未标注数据，平衡数据成本与模型效果。

- 强化学习：通过与环境交互、反馈调整策略，追求最优决策（如自动驾驶路径规划）。

3. 关键术语

- 特征：输入变量（如预测疾病的年龄、指标值）；标签：监督学习的输出变量（如疾病阳性/阴性）。

- 训练集：模型学习数据；测试集：验证模型泛化能力；样本：单条数据记录。

二、数学基础（核心必备）

1. 概率与统计（建模核心）

- 概率分布：描述随机变量取值概率，核心用正态分布（数据建模）、二项分布（离散场景）。

- 贝叶斯定理：计算条件概率，公式核心为 P(A|B)=\frac{P(B|A)P(A)}{P(B)}，用于贝叶斯分类器。

- 最大似然估计（MLE）：通过数据最大化似然函数，求解线性/逻辑回归参数。

2. 线性代数（数据处理基础）

- 矩阵运算：神经网络权重计算、PCA降维的核心工具。

- 特征值分解（EVD）/奇异值分解（SVD）：提取数据关键特征，用于降维、图像压缩。

3. 优化理论（模型训练核心）

- 损失函数：量化预测误差，分类用交叉熵、回归用均方误差（MSE）、SVM用Hinge损失。

- 梯度下降：迭代调整参数最小化损失，是神经网络、回归模型的核心优化方法。

- 凸优化：寻找全局最小值，保障Lasso/Ridge回归、SVM模型收敛。

三、核心算法（分类型梳理）

（一）监督学习（应试高频）

1. 回归算法（预测连续值）

- 线性回归：构建特征与连续目标的线性关系，模型 y=\beta_0+\beta_1x_1+...+\beta_nx_n+\epsilon，优化用最小二乘法/梯度下降。

- 正则化变体：Lasso（L1正则化，可做特征选择）、Ridge（L2正则化，防止过拟合），适配高维数据。

2. 分类算法（预测离散标签）

- 逻辑回归：二分类核心，用Sigmoid函数映射为概率，模型 P(y=1|x)=\frac{1}{1+e^{-(\beta_0+\beta^Tx)}}，多分类用Softmax扩展。

- 决策树：按特征递归划分数据，分裂标准用信息增益（ID3）、基尼指数（CART），可解释性强但易过拟合。

- 支持向量机（SVM）：寻找最大间隔超平面，用核技巧（高斯核、多项式核）处理非线性问题，适配小样本场景。

3. 集成学习（提升模型精度）

- 随机森林：Bagging集成多棵决策树，自助采样+随机选特征，降低过拟合，可做特征重要性分析。

- 梯度提升树（GBDT）：Boosting迭代优化残差，代表实现XGBoost/LightGBM，高频用于竞赛、风控。

（二）无监督学习（数据挖掘核心）

1. 聚类算法（分组无标签数据）

- K-means：划分K个簇，最小化簇内方差，需预设K值，适配客户分群、图像分割。

- DBSCAN：基于密度聚类，可发现任意形状簇，用于异常检测（如网络入侵）。

2. 降维算法（压缩特征维度）

- PCA：线性变换保留最大方差，核心是协方差矩阵特征值分解，用于高维数据可视化。

- t-SNE：保留数据局部结构，适配文本、图像的二维可视化（比PCA可视化效果更优）。

3. 关联规则

- Apriori算法：发现频繁项集，生成关联规则（如“啤酒-尿布”），用于购物篮分析、商品推荐。

（三）深度学习入门

- CNN（卷积神经网络）：用卷积层提取局部特征，适配图像分类、目标检测（YOLO），经典架构ResNet。

- RNN/LSTM：处理序列数据（文本、语音），LSTM用门控机制解决长程依赖，用于语音识别、文本生成。

- Transformer：基于自注意力机制，并行计算效率高，衍生模型BERT（NLP理解）、GPT（文本生成）。

四、模型评估与优化（应试必记）

1. 评估指标

- 分类：准确率、精确率、召回率、F1分数、ROC曲线+AUC值（核心看AUC，越大效果越好）。

- 回归：MSE、平均绝对误差（MAE）、R²系数（衡量拟合优度，接近1最优）。

2. 核心优化手段

- 交叉验证：k折交叉验证（常用5折/10折），避免数据过拟合，保障泛化能力。

- 超参数调优：网格搜索（遍历参数）、随机搜索、贝叶斯优化（高效找最优参数）。

- 偏差-方差权衡：高偏差（欠拟合）增模型复杂度，高方差（过拟合）用正则化、集成学习。

五、特征工程（数据预处理关键）

- 特征缩放：标准化（均值0方差1）、归一化（缩至[0,1]），适配SVM、神经网络等对尺度敏感的模型。

- 特征编码：类别特征用独热编码（无顺序）、标签编码（有顺序）。

- 特征选择：过滤法（基于相关性）、包装法（基于模型性能）、嵌入法（正则化内置选择）。

2025-11-24

2025-11-24

相关阅读更多精彩内容

友情链接更多精彩内容