语料准备

之前查找了很多资料,发现语料准备这块的方法论很有限,在我看来如果说AI是个学生,语料其实是教科书,是知识的海洋,是AI的粮食,非常重要。
本文主要探讨有充分的语料基础后对语料进行预处理的办法。
1,众包打标签
2,手工规则提取
关键词特征,使用数据库进行批量标记。
实体识别后特征选取,使用分词工具根据词性来标记。
词频统计,对高频特殊词单独标记。
### Dialogflow 边标记边训练,不断校正测试效果。
Explosion.ai 的 Prodigy , 快速手工标记,后台学习,提供预判,个人觉得并不好用。
3, 专家手工打标签
推荐Excel,可以与数据库互传数据,可以指定标签词汇范围,进行快速输入。
我总觉得语料工具应该有更大的发展空间,需要做的更好!

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 之前听好多大咖提到过,利用零碎时间在得到上听书。 今天早上不知是什么力量驱使自己打开了得到的APP,听本书吧。 今...
    花儿的书房阅读 1,709评论 0 0
  • 很多地方都进去了深冬,寒冷的冬季,裹上厚厚的像被子一样的棉袄 哈哈,因为我在广州,广州的天气才刚刚进去深秋,初冬,...
    易槿槿阅读 988评论 -1 0