Tensor
- torch.repeat_interleave(input, repeats, dim=None) → Tensor
- torch.unsqueeze()和torch.squeeze()
- torch.bmm()
- torch.repeat()
- torch.permute()
NN
- nn.LayerNorm()
- nn.Embedding()
- nn.GRU(): 循环神经网络对不同时刻的输入共享权重。第一个是各个时刻最后一层的输出,第二个是多层GRU最后时刻的输出(第一个最后时刻和第二个最后一层是相同的),输出都是隐状态。
torch.utils.data
Other
关键点:子空间。即注意力输入的查询、键、值和单头一样,只是查询和键只能部分见部分,而不像单头任一查询和所有键“”对比。