学习 Transformer 相关的知识,需要掌握以下数学基础:
1. 线性代数
• 矩阵运算:加法、乘法、转置、求逆等
• 向量空间:基、线性变换
• 特征值与特征向量:用于理解自注意力机制的权重分布
• 奇异值分解(SVD)与主成分分析(PCA):用于降维、理解词向量表示
2. 概率与统计
• 概率分布:均匀分布、正态分布、多项分布等
• 条件概率:贝叶斯定理、马尔可夫性质
• 信息熵与交叉熵:用于损失函数计算
• KL 散度:衡量两个概率分布之间的差异
3. 微积分
• 导数与偏导数:用于梯度计算和优化
• 链式法则:用于反向传播
• 梯度下降:优化 Transformer 模型的关键
4. 概率图模型与最优化方法(进阶)
• 自回归模型:Transformer 的解码过程
• 变分推断:用于 BERT、GPT 预训练目标