1.输入的语音数据
输入的所有数据
输入的掩码,掩码取的是size的最大长度
2.将数据和掩码放入卷积层
输出的维度和掩码
3.具体变化过程
#1.x = x.unsqueeze(1)
添加一个维度,(默认为1)(也就是说第二个维度其实无实际意义)
经常用于CNN,因为conv2d的输入必须是四维的(batch,channel,height,width),如果输入的是文本的话通常只是三维的(batch,length,dim),因此需要unsqueeze(1),增加一维channel,才能做卷积操作
#2输入的特征和掩码分别做卷积
第一次卷积
默认的参数
有64个卷积核
也就是64个3*3矩阵
第二次卷积
转换第二个维度和第三个维度,然后c*f压缩一个维度