数据介绍
使用深度学习算法做闲聊系统已经有一段时间了,回过头发现,大部分时间都在寻找优质训练。虽然网上有别人分享的闲聊数据,比如使用现有机器人(小黄鸡、小冰等)对话获得的数据(个人非常怀疑 数据的可用性,因为这些机器人本身的回答方式是基于匹配的,如果其匹配出错,训练自己的模型时,直接影响到模型的准确性,再加上,自己的模型并不能保证十分优秀,在优化模型的时候又需要担忧数据本身的问题)。另外就是字幕数据,网上有人出售3kw+行的字幕数据,仔细研究后发现噪音特别多,同时还有大量的重复,当然最主要的是上下两句无法判定是否是对话。在对话方面的paper,领域的大牛一般是以Ubuntu的问答数据来做,但只限于Ubuntu这个特定的领域,无法满足我们想开发闲聊机器人的需求。
网上有报道,小冰刚出来的时候拥有2kw+问答对,同时每天有一定百分比的增长,而且声明其预料来自网络公共数据。应对开发闲聊系统的需求,经过一两个月的摸索,总算找到合适的闲聊数据。
考虑到数据收集的艰辛,想把收集的数据售出(恕不告知数据来源),让更多的人来解决“深度学习做对话系统”这个难题,说是他是难题,因为太多东西要去解决。目前深度学习做对话系统,主流的核心算法是seq2seq,之后还有很多优化算法,如使用beam search解决前k个字符概率乘积最大、考虑低频回复的MMI,兼顾问题前后字符的信息——attention mechanism,解决连续多轮的问答HRED,同时使用reinforcement learning也能在一定程度上解决多轮问题。总的来说,这些优秀的算法在一定程度上确实解决了问题,不过你还是得有合适的数据(如多轮问答数据)才能测试、评估、改进等。所以想通过售卖数据方式,希望大家一起解决这个难题——毕竟智能对话是多么吸引人,而且未来一定是各大公司必争之地。
数据统计
目前已有的数据统计:
多轮:500w
数据示例
数据示例如下:
去秋来,海棠花开。昨晚刚看,特别喜欢
哈哈哈,是的,我也觉得好好看
不能缓存让我非常不满
小土豪你可以买一个会员
帅锅,要什么服务吗?
拿瓶可乐来,有点辣
你最近长这样哈
好想笑怎么办
你这么说就不对了她一直都这么美的
我当然知道只是以前美的风格不一样
天啊,此女只因天上有,话说你是天秤的?
哈哈哈哈可以露姐,对啊,我是天秤座咧
分手
我不
既然你这样挽回我那我就原谅你好了
原则呢?
我这个人别的没有,原则更没有
你掉了两个粉
哪两个
我怎么知道?
生气,你跟我聊天的时候竟然还有空回复别人
元宵节快乐
你还是祝自己元宵快乐吧
评论厉害了
是吧笑死我了
心疼欧巴,幸灾乐祸
今天的赛汗塔拉更美吧
走起
真想去走一圈呢
出差报销全都到账啦~要去还信用卡了
有木有老王的,有木有?
哈哈
说到我痛处了,我还在等,几个月到都没给
好想回到沉迷书海的年代……
现在静得下心看一小时书已属难得
我们都在原地踏步
让她们都歇了吧
托腮看着你!
我爱你
喂。我会当真的哦
过了十二点了
中午还是凌晨
独立日2
你看过吗?跟我讲讲呗。
husband怎么读
丈夫
你脑子进水了吗
脑子进大便了
有礼貌开始是的拉
你这个问题好奇怪。
我对你很仁慈的
还好吧因为虽然这人想法偏激但是也没太过
长沙好玩不
提起长沙,就想到长沙臭豆腐!