文中指出,在大规模数据集上(尤其是书写不规范的ugc),cnn文本分类问题在char-level同样有很好的效果。
文中alphabet总共有70个char:
模型包括6层卷积3层全连接,前两层fc使用了0.5的dropout。
每层细节如下表所示:
输入部分截断到长度为1014,不在alphabet中的词向量置0。
数据增强:近义词替换
评估:
文中指出,在大规模数据集上(尤其是书写不规范的ugc),cnn文本分类问题在char-level同样有很好的效果。
文中alphabet总共有70个char:
模型包括6层卷积3层全连接,前两层fc使用了0.5的dropout。
每层细节如下表所示:
输入部分截断到长度为1014,不在alphabet中的词向量置0。
数据增强:近义词替换
评估: