第二届拍拍贷魔镜杯数据应用大赛于2017年4月10日启动,决赛路演于9月2日在上海举行。相较于去年,今年的题目更专注于实用性,对开发能力提出了更多更高的要求。比赛可以从以下三个参考方向来展开角逐,和去年的三个子赛题基本对应:
- 投标类:开发一款投标工具,帮助投资人实现投资收益的优化,并自动高效地完成从选标到投标的全过程。可能包括部分策略开发等分析相关工作,更重要的是能够调用投标接口完成投标功能;
- 分析类: 基于拍拍贷平台的整体数据(类比上交所大盘)或投资者个人的投资历史数据(经授权),运用数据科学技术进行分析或挖掘,为投资人提供有价值的信息、建议等个性化服务;
- 创意类:不包含在前两类内容中的有价值的产品或服务。创意类方向不设任何限制,基于现有的数据与资源,发挥创造力,做出一个让自己满意、也被市场认可的有价值的作品。
作品思路
既然要搞,就搞个大的。与其单独做投标类、分析类或创意类中的一种,不如三者兼顾,做一个功能完善的系统出来。
作品的思路在初赛阶段便已想好:通过知情、知己两个模块,分别对平台数据和个人记录进行分析和展示(分析类);通过知心模块,使用多种方法和模型实现投标功能(投标类);最后再扩充下数据、开发个社区,做个功能性聊天机器人(创意类)。这样一来,五脏俱全、要啥有啥、一套带走,可以说做了整个生态。
但是后来才慢慢发现,这个思路,从一开始就是错误的。
先介绍下比赛的评审机制,大赛分为初赛、复赛、决赛三轮,进入决赛的10支队伍需要参加决赛路演答辩。比赛奖金共计10W美金,30%由大众投资人投票决定,70%由决赛现场的专家评委决定。其实对投资人和评委而言,真正关心的,只是简单好用的投标工具,其它可有可无的也许根本不在意。
而我在很多内容上消耗了时间和精力,其结果便是投标功能做得不够完善、不够全面,所以30%即3W美金的大众投资人投票中,我只拿到了1000多一点,在决赛10支队伍中排第八。而投标做得比较好的三支队伍,分别拿到了1W3、4k、3k,因此在决赛开始前便取得了一个很高的起点,对于决赛专家评委的评审也会起到一定的引导作用。
毕竟这不是一个算法比赛,工作量多、模型性能都不重要,投资人要看到的是选标策略对应的出标量、预期收益、逾期率等回溯指标,所以关键得做好投标功能、稳定运营、积累群众基础,才能在大众评审部分拿到一个好的成绩,在决赛答辩中获取一个更高的起点。如果我能一开始便认清这一点,集中精力去做好投标功能,也许就可以取得更好的结果了。
讽刺的是,拿到1W3大众评审票、一直让人充满期待的队伍,在决赛现场的答辩内容却十分单薄,他们用的方法,竟然只是人工构建了一棵决策树,然后将每个叶节点的筛选条件作为一种选标策略。主讲人的演讲毫无波澜,评委问起问题来也支支吾吾。尽管如此,他们最后还是拿了2W奖金、获得了第一名,前期的群众基础起了很大的作用。
决赛答辩
决赛答辩设在上海的喜马拉雅艺术中心大观舞台,现场还是很高大上的。看到舞台两边的10个位子了吗?对,就是给10个队伍的队长坐的……
这个队长位子长这样,让人亚历山大。
我在第四个答辩,还算顺利,稿子背得很熟。
最后一共拿了10693刀,排第四,在决赛答辩中涨了9000多刀,算是10支队伍中涨得比较多的了。
第一名是之前提到的那个队伍,从1W3涨到2W,涨得还没我多,主要是前期群众基础好;第二名是拍拍标师,他们队伍有五个人,而且确实在这个比赛上花了大量时间和精力,他们的作品做得也十分优秀和完善,因此最终拿了一个额外的名誉大奖,虽然没有奖金,但确实是对他们实力的认可。而我主要靠自己一个人,花的时间也不算多,拿到这样的结果也算满意了。
当然,还是有些遗憾,如果一开始专注做投标,说不定能取得更好的结果。
作品详情
以下是答辩的PPT和演讲内容。
大家好,我是DI团队的张宏伦,作品名称是,拍知心
拍拍贷的出现带来了一系列变革,例如降低了借款人的借款门槛,提高了投资人的投资利润
对投资人而言,最为重要的问题,便是如何进行选标。一般而言,选标的依据主要取决于标的特征、借款人特征、投资人特征三大类因素
因此,我们工作的研究核心,便是如何在收益最大化、风险最小化的前提下,为投资人选择最适合的标的
我们的系统架构如下:通过知情、知己两个模块,对平台标的数据和个人投资记录进行全面的分析和展示;使用基于策略、基于学习、基于推荐三种方法,实现知心这一智能投资顾问模块;在此基础上,我们进行了多源异构数据扩充、开发了拍粉社区互动平台,并使用积累的数据和语料,搭建了拍知心这一垂直领域的智能聊天机器人,为投资人提供各方面的决策建议和辅助功能
首先让我们概览一下数据,比赛官方提供了LC、LP、LCIS三类数据,它们之间可以通过ListingId这一字段进行对齐
我们通过知情实现平台概览,从基本统计、分类统计、密度分布、认证分析、还款分析、指标对比六个角度对拍拍贷整体投资数据进行分析,辅助投资人全面综合地了解平台概况
这是作品实现中的平台概览页面
我们通过知己实现个人中心,从资产概况、投资偏好、历史统计、分类统计、期限分析、逾期分析六个角度对投资人历史投资记录进行分析,辅助投资人更好地了解个人投资行为
这是作品实现中的个人中心页面
我们使用以下三种方法,实现知心这一智能投资顾问模块。基于策略对应专家系统,主要使用人工经验;基于学习对应机器学习,主要使用模型和算法;基于推荐对应推荐系统,主要使用数据之间的关联和相似。我们融合了多种方法,互相取长补短,从而实现更好的效果
基于策略是指使用预先设定好的投资策略对标的进行处理和筛选,对于可投标的,如果满足启用中的任意策略,则投资相应的金额。这里我们设计了四项系统策略
当然,还可以设计更多的赔标策略和信用标策略,但在我们看来,无非都是使用更丰富的条件组合,以及更复杂的筛选规则。我们认为,基于策略的自动投标,拍精灵等现有工具已经做得足够完善,所以我们希望把更多的精力放在,探索如何将机器学习和人工智能应用到投资选标中来。除了快,我们还想做到准和个性化
因此,我们使用机器学习和深度学习等方法,在经过数据清洗、数据重塑、特征工程等步骤处理后,实现了标的量化模型,ListingNet,从安全评分和逾期概率两个角度来评估标的。这两项任务的定义如下,都属于有监督学习中的分类问题
ListingNet的模型结构中主要包含了三块内容:逻辑回归、随机森林等基分类器,多个XGBoost模型集成学习,由全连接层组成的神经网络。同时,基分类器的输出经过Stacking之后,作为二级特征进一步输入到XGBoost和神经网络中
我们对ListingNet的模型性能进行了评测,在安全评分和逾期概率两项任务上,ListingNet的Accuracy和AUC都取得了最好的结果。我们使用以下公式来实现投资的个性化,其中前两项分别表示标的安全评分和投资人是否追求逾期收益,后两项用于表示投资人的利率偏好和期限偏好
除此之外,我们还基于推荐系统,使用基于内容的协同过滤和基于模型的协同过滤,通过计算标的相似度和用户相似度,为投资人推荐感兴趣的标的
完成了知情、知己、知心等工作之后,我们进行了数据扩充,从拍拍贷、网贷之家、今日头条等网站上,获取了聊天语料、问答数据、领域本体、知识图谱等各种类型的数据,经过相关的NLP处理后,转化成有用的数据资产
我们还开发了拍粉社区互动平台,集资讯、问答、分享等常用社交功能于一体,为投资人提供各方面服务的同时,进一步积累更多的用户产生内容
在已有数据和语料的基础上,我们实现了面向拍拍贷用户的垂直领域聊天机器人,拍知心,为投资人提供直接的对话服务。拍知心主要使用了基于规则、基于检索、基于学习三种方法来生成对话,这里我们着重介绍一下基于学习的实现原理
基于学习,是指使用基于深度LSTM网络的自编码器模型,将用户输入转换成文本词向量序列,学习到对应的隐层表示后,再转换成输出文本词向量序列,从而可以得到任意输入内容的对话输出,即Sequence to Sequence Learning,属于生成式学习模型,对话生成效果好,但对数据需求量大、训练成本较高
我们将以上功能全部实现并部署到网站上,包括平台概览、个人中心、投资顾问、拍粉社区四个页面,可以通过以下链接访问我们的网站(访问网站需要拍拍贷授权,所以需要注册拍拍贷账号,不过注册账号之后,可能会有拍拍贷工作人员电话联系,询问是否有借款或投资意向。所以如果只是想看一下产品展示,那么看展示视频即可),让我们一起来看一段展示视频,https://v.qq.com/x/page/n0538boxfjx.html
最后,对我们的作品进行一个总结。我们通过知情、知己、知心,分别为投资人提供平台概览、个人中心、投资顾问三项功能,新的投资数据可用于更新相应的模块。通过扩充数据和用户数据实现拍知心聊天机器人,拍粉社区则不断地积累新的用户数据,从而形成数据闭环,共同打造一个智能投资数据生态系统
我们的团队成员有两位,都是上海交通大学的博士生
以上就是我们的作品内容,拍知心,最懂你的智能投资顾问,谢谢大家!