2025-03-11

学习 Transformer 相关的知识,需要掌握以下数学基础:

1. 线性代数

• 矩阵运算:加法、乘法、转置、求逆等

• 向量空间:基、线性变换

• 特征值与特征向量:用于理解自注意力机制的权重分布

• 奇异值分解(SVD)与主成分分析(PCA):用于降维、理解词向量表示

2. 概率与统计

• 概率分布:均匀分布、正态分布、多项分布等

• 条件概率:贝叶斯定理、马尔可夫性质

• 信息熵与交叉熵:用于损失函数计算

• KL 散度:衡量两个概率分布之间的差异

3. 微积分

• 导数与偏导数:用于梯度计算和优化

• 链式法则:用于反向传播

• 梯度下降:优化 Transformer 模型的关键

4. 概率图模型与最优化方法(进阶)

• 自回归模型:Transformer 的解码过程

• 变分推断:用于 BERT、GPT 预训练目标

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 召回&排序 特征 从分布类型看,分为连续类型、离散类型、序列类型。从特征主体划分,可以分为User特征、Item特...
    lym94阅读 844评论 0 0
  • 1 为什么要对特征做归一化 特征归一化是将所有特征都统一到一个大致相同的数值区间内,通常为[0,1]。常用的特征归...
    顾子豪阅读 1,863评论 0 1
  • 1 为什么要对特征做归一化 特征归一化是将所有特征都统一到一个大致相同的数值区间内,通常为[0,1]。常用的特征归...
    顾子豪阅读 7,127评论 2 22
  • Improving Deep Regression with Ordinal Entropy ICLR 2023 ...
    Valar_Morghulis阅读 2,870评论 0 3
  • AIGC基本概念 AI大模型是一个学术概念吗? AI大模型,即人工智能大模型,是一个学术概念,指的是使用大量数据、...
    游侠_6fb7阅读 654评论 0 0

友情链接更多精彩内容