图像增广 图像增广(image augmentation)技术通过对训练图像做一系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模 常用的图像增广方法 翻转...
图像增广 图像增广(image augmentation)技术通过对训练图像做一系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模 常用的图像增广方法 翻转...
在源数据集(如ImageNet数据集)上预训练一个神经网络模型,即源模型 创建一个新的神经网络模型,即目标模型。它复制了源模型上除了输出层外的所有模型设计及其参数,假设这些模...
使用文本情感分类来分析文本作者的情绪 同搜索近义词和类比词一样,文本分类也属于词嵌入的下游应用 建模步骤 文本情感分类数据 ——读取数据 ——预处理数据(先根据文本的格式进行...
全局向量的词嵌入(GloVe) GloVe模型采用了平方损失,并基于该损失对跳字模型做了3点改动 在有些情况下,交叉熵损失函数有劣势,GloVe模型采用了平方损失,并通过词向...
把词映射为实数域向量的技术也叫词嵌入 跳字模型 假设基于某个词来生成它在文本序列周围的词 每个词被表示成两个 d维向量,用来计算条件概率 训练中通过最大化似然函数来学习模型参...
机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT) 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能...
动量法 设时间步t的自变量为xt,学习率为ηt。在时间步0,动量法创建速度变量v0,并将其元素初始化成0。在时间步t>0,动量法对每次迭代的步骤做如下修改,其中,动量超参数γ...
使用适当的学习率,沿着梯度反方向更新自变量可能降低目标函数值,梯度下降重复这一更新过程直到得到满足要求的解 学习率过大或过小都有问题,一个合适的学习率通常是需要通过多次实验找...
尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同 优化方法目标:训练集损失函数值 深度学习目标:测试集损失函数值(泛化性) 优...
批量归一化层 对全连接层做批量归一化 对卷积层做批量归一化 对卷积层来说,批量归一化发生在卷积计算之后、应用激活函数之前。如果卷积计算输出多个通道,我们需要对这些通道的输出分...
深度卷积神经网络(AlexNet) AlexNet跟LeNet结构类似,但使用了更多的卷积层和更大的参数空间来拟合大规模数据集ImageNet 它是浅层神经网络和深度神经网络...
解决多层感知机问题 问题:图像在同一列邻近的像素在这个向量中可能相距较远,它们构成的模式可能难以被模型识别 解决:卷积层保留输入形状,使图像的像素在高和宽两个方向上的相关性均...
二维卷积层 二维卷积层的核心计算是二维互相关运算 在最简单的形式下,它对二维输入数据和卷积核做互相关运算然后加上偏差 我们可以设计卷积核来检测图像中的边缘 我们可以通过数据来...
门控循环单元(GRU) 门控循环神经网络可以更好地捕捉时间序列中时间步距离较大的依赖关系 门控循环单元引入了门的概念,从而修改了循环神经网络中隐藏状态的计算方式 它包括重置门...
使用循环计算的网络即循环神经网络 循环神经网络的隐藏状态可以捕捉截至当前时间步的序列的历史信息 循环神经网络模型参数的数量不随时间步的增加而增长 可以基于字符级循环神经网络来...
语言模型是自然语言处理的重要技术 语言模型可用于提升语音识别和机器翻译的性能 (1)同音词选择——eg.厨房里食油用完了 食油or石油 (2)词序调整——eg.you go ...
处理步骤: 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 难点: 中文处理 实践(自己的两篇论文): ...
深度模型有关数值稳定性的典型问题是衰减和爆炸。当神经网络的层数较多时,模型的数值稳定性容易变差 我们通常需要随机初始化神经网络的模型参数,如权重参数
模型选择、欠拟合和过拟合 由于无法从训练误差估计泛化误差,一味地降低训练误差并不意味着泛化误差一定会降低 机器学习模型应关注降低泛化误差。 可以使用验证数据集来进行模型选择 ...
多层感知机在输出层与输入层之间加入了一个或多个全连接隐藏层,并通过激活函数对隐藏层输出进行变换 常用的激活函数包括ReLU函数、sigmoid函数和tanh函数 相较于sig...