中文闲聊语料

数据介绍

 使用深度学习算法做闲聊系统已经有一段时间了,回过头发现,大部分时间都在寻找优质训练。虽然网上有别人分享的闲聊数据,比如使用现有机器人(小黄鸡、小冰等)对话获得的数据(个人非常怀疑 数据的可用性,因为这些机器人本身的回答方式是基于匹配的,如果其匹配出错,训练自己的模型时,直接影响到模型的准确性,再加上,自己的模型并不能保证十分优秀,在优化模型的时候又需要担忧数据本身的问题)。另外就是字幕数据,网上有人出售3kw+行的字幕数据,仔细研究后发现噪音特别多,同时还有大量的重复,当然最主要的是上下两句无法判定是否是对话。在对话方面的paper,领域的大牛一般是以Ubuntu的问答数据来做,但只限于Ubuntu这个特定的领域,无法满足我们想开发闲聊机器人的需求。

 网上有报道,小冰刚出来的时候拥有2kw+问答对,同时每天有一定百分比的增长,而且声明其预料来自网络公共数据。应对开发闲聊系统的需求,经过一两个月的摸索,总算找到合适的闲聊数据。

 考虑到数据收集的艰辛,想把收集的数据售出(恕不告知数据来源),让更多的人来解决“深度学习做对话系统”这个难题,说是他是难题,因为太多东西要去解决。目前深度学习做对话系统,主流的核心算法是seq2seq,之后还有很多优化算法,如使用beam search解决前k个字符概率乘积最大、考虑低频回复的MMI,兼顾问题前后字符的信息——attention mechanism,解决连续多轮的问答HRED,同时使用reinforcement learning也能在一定程度上解决多轮问题。总的来说,这些优秀的算法在一定程度上确实解决了问题,不过你还是得有合适的数据(如多轮问答数据)才能测试、评估、改进等。所以想通过售卖数据方式,希望大家一起解决这个难题——毕竟智能对话是多么吸引人,而且未来一定是各大公司必争之地。

数据统计

目前已有的数据统计:
多轮:500w

数据示例

数据示例如下:
去秋来,海棠花开。昨晚刚看,特别喜欢
哈哈哈,是的,我也觉得好好看

不能缓存让我非常不满
小土豪你可以买一个会员

帅锅,要什么服务吗?
拿瓶可乐来,有点辣

你最近长这样哈
好想笑怎么办
你这么说就不对了她一直都这么美的
我当然知道只是以前美的风格不一样

天啊,此女只因天上有,话说你是天秤的?
哈哈哈哈可以露姐,对啊,我是天秤座咧

分手
我不
既然你这样挽回我那我就原谅你好了
原则呢?
我这个人别的没有,原则更没有

你掉了两个粉
哪两个
我怎么知道?

生气,你跟我聊天的时候竟然还有空回复别人
元宵节快乐
你还是祝自己元宵快乐吧

评论厉害了
是吧笑死我了
心疼欧巴,幸灾乐祸

今天的赛汗塔拉更美吧
走起
真想去走一圈呢

出差报销全都到账啦~要去还信用卡了
有木有老王的,有木有?
哈哈
说到我痛处了,我还在等,几个月到都没给

好想回到沉迷书海的年代……
现在静得下心看一小时书已属难得
我们都在原地踏步

让她们都歇了吧
托腮看着你!

我爱你
喂。我会当真的哦

过了十二点了
中午还是凌晨

独立日2
你看过吗?跟我讲讲呗。

husband怎么读
丈夫

你脑子进水了吗
脑子进大便了

有礼貌开始是的拉
你这个问题好奇怪。

我对你很仁慈的
还好吧因为虽然这人想法偏激但是也没太过

长沙好玩不
提起长沙,就想到长沙臭豆腐!

数据地址

还有 8% 的精彩内容
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
支付 ¥10.00 继续阅读