240 发简信
IP属地:上海
  • Resize,w 360,h 240
    Task08: 文本分类;数据增强;模型微调

    文本情感分类 作为nlp的常见任务,属于词嵌入模型的下游应用,情感分析应用场景广泛(也是我想写的方面) 使用CNN 一层卷积 时序最大池化层 T...

  • Task07:优化算法进阶;word2vec;词嵌入进阶

    首先回顾下前面的知识点梯度下降的迭代公式如下其中是待训练的网络参数,是学习率(有时也用表示),是一个常数,是梯度。以上是梯度下降法的最基本形式,...

  • Resize,w 360,h 240
    Task06:批量归一化和残差网络;凸优化;梯度下降

    批量归一化(BatchNormalization) 对输入的标准化(浅层模型) 处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。...

  • Resize,w 360,h 240
    Task04:机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer

    机器翻译 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单...

  • Resize,w 360,h 240
    Task03:过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶

    错题回顾 测试数据集不可以用来调整模型参数,如果使用测试数据集调整模型参数,可能在测试数据集上发生一定程度的过拟合,此时将不能用测试误差来近似泛...

  • Resize,w 360,h 240
    Day 4 语言模型

    语言模型 一段语言模型可以看成一个离散时间序列 N-gram 假设序列, ,... 中的每个词是依次生成的,我们有 = = n元语法 序列长度增...

  • Day 3 梯度消失、梯度爆炸

    知识点归纳 DP神经网络里应该避免使用sigmoid或者tanh函数——>这两个激活函数会把元素转移到[0,1]和[-1,1]之间,加速梯度消失...

  • Day2 过拟合、欠拟合以及解决方案

    错题回顾 测试数据集不可以用来调整模型参数,如果使用测试数据集调整模型参数,可能在测试数据集上发生一定程度的过拟合,此时将不能用测试误差来近似泛...

  • Resize,w 360,h 240
    Day 1 线性回归;Softmax与分类模型、多层感知机

    挖坑   在家准备论文,看到Datawhale发了14天动手学习AI的宣传,虽然没带笔记本回家,网也不太好,还是决定试一下。话不多说,现在开始。...