Pytorch APIs

Tensor

  1. torch.repeat_interleave(input, repeats, dim=None) → Tensor
  2. torch.unsqueeze()和torch.squeeze()
  3. torch.bmm()
  4. torch.repeat()
  5. torch.permute()

NN

  1. nn.LayerNorm()
  2. nn.Embedding()
  3. nn.GRU(): 循环神经网络对不同时刻的输入共享权重。第一个是各个时刻最后一层的输出,第二个是多层GRU最后时刻的输出(第一个最后时刻和第二个最后一层是相同的),输出都是隐状态。

torch.utils.data

  1. data.TensorDataset()

Other

  1. Positional Encoding,推荐英文原文

关键点:子空间。即注意力输入的查询、键、值和单头一样,只是查询和键只能部分见部分,而不像单头任一查询和所有键“”对比。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容