2019-03-22

最近对“有多少人工就有多少智能”有了一些理解。虽然以前很鄙视这个话,觉得是说很多工程用人工的方法来包装成智能。现在对这句话有了更深的理解。
最近做情感分析,用的标注的一万多条语料。因为语料比较少,所以效果差强人意,优化的一个很大的方向就是语料的扩充。然而人标注毕竟比较慢,就想了一个投机取巧的办法,用情感词典做基础,如果一个句子中含有较多正面词就标注为正面,含有较多负面词就标注为负面;最后人工简单过一下,很快就生成了十万左右的语料。
开始我想,这个方法妙啊,“半监督”生成了这么多语料。之前的一层模型改成2层(不包括全联接层),美滋滋跑了一遍,得到了训练集和验证集正确率都非常接近100%的好结果。
但是,似乎有哪里异常!对,后来我发现,正是用这种投机取巧的方式生成了语料,所以模型似乎也学到了这种投机取巧的方式:遇到我们词典里的正面词,就判断成正面;遇到词典里负面词,就判断成负面。最后模型的真正的泛化性能比较差。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 冲动是魔鬼,伏魔先伏自心 在《武林外传》中,郭芙蓉每每暴躁易怒想发火时,总会念上一句:世界如此美妙,我却如此暴躁,...
    溜溜陆陆阅读 601评论 1 4
  • “水晶帘动微风起,满架蔷薇一院香。”---高骈《山亭夏日》 近日气温逐升,绿树浓荫的蝉鸣时节也了几分意。今日在海宁...
    深夜里不羁的老灵魂阅读 693评论 0 2
  • ⑤ 活用—— 通过再次浏览读书笔记,在检索和参考的过程中帮助自己获得智慧、得到提升。另一方面,制作笔记时要注意方便...
    不识烟火阅读 634评论 0 7
  • 2017.9.8日记分享:早上出门在家附近找了一家早餐店打包一份早餐上班去,这家店铺应该有十多年的历史了,可以说是...
    丽华1117阅读 157评论 0 1
  • 最近看AFNetworking2的源码,学习这个知名网络框架的实现,顺便梳理写下文章。AFNetworking2的...
    RobinYu阅读 301评论 0 0