2019-03-22

最近对“有多少人工就有多少智能”有了一些理解。虽然以前很鄙视这个话，觉得是说很多工程用人工的方法来包装成智能。现在对这句话有了更深的理解。
最近做情感分析，用的标注的一万多条语料。因为语料比较少，所以效果差强人意，优化的一个很大的方向就是语料的扩充。然而人标注毕竟比较慢，就想了一个投机取巧的办法，用情感词典做基础，如果一个句子中含有较多正面词就标注为正面，含有较多负面词就标注为负面；最后人工简单过一下，很快就生成了十万左右的语料。
开始我想，这个方法妙啊，“半监督”生成了这么多语料。之前的一层模型改成2层（不包括全联接层），美滋滋跑了一遍，得到了训练集和验证集正确率都非常接近100%的好结果。
但是，似乎有哪里异常！对，后来我发现，正是用这种投机取巧的方式生成了语料，所以模型似乎也学到了这种投机取巧的方式：遇到我们词典里的正面词，就判断成正面；遇到词典里负面词，就判断成负面。最后模型的真正的泛化性能比较差。

最后编辑于：2019.05.28 10:40:40

2019-03-22

推荐阅读更多精彩内容