最近对“有多少人工就有多少智能”有了一些理解。虽然以前很鄙视这个话,觉得是说很多工程用人工的方法来包装成智能。现在对这句话有了更深的理解。
最近做情感分析,用的标注的一万多条语料。因为语料比较少,所以效果差强人意,优化的一个很大的方向就是语料的扩充。然而人标注毕竟比较慢,就想了一个投机取巧的办法,用情感词典做基础,如果一个句子中含有较多正面词就标注为正面,含有较多负面词就标注为负面;最后人工简单过一下,很快就生成了十万左右的语料。
开始我想,这个方法妙啊,“半监督”生成了这么多语料。之前的一层模型改成2层(不包括全联接层),美滋滋跑了一遍,得到了训练集和验证集正确率都非常接近100%的好结果。
但是,似乎有哪里异常!对,后来我发现,正是用这种投机取巧的方式生成了语料,所以模型似乎也学到了这种投机取巧的方式:遇到我们词典里的正面词,就判断成正面;遇到词典里负面词,就判断成负面。最后模型的真正的泛化性能比较差。
2019-03-22
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 最近看AFNetworking2的源码,学习这个知名网络框架的实现,顺便梳理写下文章。AFNetworking2的...