拍知心 最懂你的智能投资顾问

第二届拍拍贷魔镜杯数据应用大赛于2017年4月10日启动,决赛路演于9月2日在上海举行。相较于去年,今年的题目更专注于实用性,对开发能力提出了更多更高的要求。比赛可以从以下三个参考方向来展开角逐,和去年的三个子赛题基本对应:

  • 投标类:开发一款投标工具,帮助投资人实现投资收益的优化,并自动高效地完成从选标到投标的全过程。可能包括部分策略开发等分析相关工作,更重要的是能够调用投标接口完成投标功能;
  • 分析类: 基于拍拍贷平台的整体数据(类比上交所大盘)或投资者个人的投资历史数据(经授权),运用数据科学技术进行分析或挖掘,为投资人提供有价值的信息、建议等个性化服务;
  • 创意类:不包含在前两类内容中的有价值的产品或服务。创意类方向不设任何限制,基于现有的数据与资源,发挥创造力,做出一个让自己满意、也被市场认可的有价值的作品。

作品思路

既然要搞,就搞个大的。与其单独做投标类、分析类或创意类中的一种,不如三者兼顾,做一个功能完善的系统出来。

作品的思路在初赛阶段便已想好:通过知情知己两个模块,分别对平台数据和个人记录进行分析和展示(分析类);通过知心模块,使用多种方法和模型实现投标功能(投标类);最后再扩充下数据、开发个社区,做个功能性聊天机器人(创意类)。这样一来,五脏俱全、要啥有啥、一套带走,可以说做了整个生态。

但是后来才慢慢发现,这个思路,从一开始就是错误的

先介绍下比赛的评审机制,大赛分为初赛、复赛、决赛三轮,进入决赛的10支队伍需要参加决赛路演答辩。比赛奖金共计10W美金,30%由大众投资人投票决定,70%由决赛现场的专家评委决定。其实对投资人和评委而言,真正关心的,只是简单好用的投标工具,其它可有可无的也许根本不在意。

而我在很多内容上消耗了时间和精力,其结果便是投标功能做得不够完善、不够全面,所以30%即3W美金的大众投资人投票中,我只拿到了1000多一点,在决赛10支队伍中排第八。而投标做得比较好的三支队伍,分别拿到了1W3、4k、3k,因此在决赛开始前便取得了一个很高的起点,对于决赛专家评委的评审也会起到一定的引导作用。

毕竟这不是一个算法比赛,工作量多、模型性能都不重要,投资人要看到的是选标策略对应的出标量、预期收益、逾期率等回溯指标,所以关键得做好投标功能、稳定运营、积累群众基础,才能在大众评审部分拿到一个好的成绩,在决赛答辩中获取一个更高的起点。如果我能一开始便认清这一点,集中精力去做好投标功能,也许就可以取得更好的结果了。

讽刺的是,拿到1W3大众评审票、一直让人充满期待的队伍,在决赛现场的答辩内容却十分单薄,他们用的方法,竟然只是人工构建了一棵决策树,然后将每个叶节点的筛选条件作为一种选标策略。主讲人的演讲毫无波澜,评委问起问题来也支支吾吾。尽管如此,他们最后还是拿了2W奖金、获得了第一名,前期的群众基础起了很大的作用。

决赛答辩

决赛答辩设在上海的喜马拉雅艺术中心大观舞台,现场还是很高大上的。看到舞台两边的10个位子了吗?对,就是给10个队伍的队长坐的……

这个队长位子长这样,让人亚历山大。

我在第四个答辩,还算顺利,稿子背得很熟。

最后一共拿了10693刀,排第四,在决赛答辩中涨了9000多刀,算是10支队伍中涨得比较多的了。

第一名是之前提到的那个队伍,从1W3涨到2W,涨得还没我多,主要是前期群众基础好;第二名是拍拍标师,他们队伍有五个人,而且确实在这个比赛上花了大量时间和精力,他们的作品做得也十分优秀和完善,因此最终拿了一个额外的名誉大奖,虽然没有奖金,但确实是对他们实力的认可。而我主要靠自己一个人,花的时间也不算多,拿到这样的结果也算满意了。

当然,还是有些遗憾,如果一开始专注做投标,说不定能取得更好的结果。

作品详情

以下是答辩的PPT和演讲内容。

大家好,我是DI团队的张宏伦,作品名称是,拍知心

拍拍贷的出现带来了一系列变革,例如降低了借款人的借款门槛,提高了投资人的投资利润

对投资人而言,最为重要的问题,便是如何进行选标。一般而言,选标的依据主要取决于标的特征、借款人特征、投资人特征三大类因素

因此,我们工作的研究核心,便是如何在收益最大化、风险最小化的前提下,为投资人选择最适合的标的

我们的系统架构如下:通过知情、知己两个模块,对平台标的数据和个人投资记录进行全面的分析和展示;使用基于策略、基于学习、基于推荐三种方法,实现知心这一智能投资顾问模块;在此基础上,我们进行了多源异构数据扩充、开发了拍粉社区互动平台,并使用积累的数据和语料,搭建了拍知心这一垂直领域的智能聊天机器人,为投资人提供各方面的决策建议和辅助功能

首先让我们概览一下数据,比赛官方提供了LC、LP、LCIS三类数据,它们之间可以通过ListingId这一字段进行对齐

我们通过知情实现平台概览,从基本统计、分类统计、密度分布、认证分析、还款分析、指标对比六个角度对拍拍贷整体投资数据进行分析,辅助投资人全面综合地了解平台概况

这是作品实现中的平台概览页面

我们通过知己实现个人中心,从资产概况、投资偏好、历史统计、分类统计、期限分析、逾期分析六个角度对投资人历史投资记录进行分析,辅助投资人更好地了解个人投资行为

这是作品实现中的个人中心页面

我们使用以下三种方法,实现知心这一智能投资顾问模块。基于策略对应专家系统,主要使用人工经验;基于学习对应机器学习,主要使用模型和算法;基于推荐对应推荐系统,主要使用数据之间的关联和相似。我们融合了多种方法,互相取长补短,从而实现更好的效果

基于策略是指使用预先设定好的投资策略对标的进行处理和筛选,对于可投标的,如果满足启用中的任意策略,则投资相应的金额。这里我们设计了四项系统策略

当然,还可以设计更多的赔标策略和信用标策略,但在我们看来,无非都是使用更丰富的条件组合,以及更复杂的筛选规则。我们认为,基于策略的自动投标,拍精灵等现有工具已经做得足够完善,所以我们希望把更多的精力放在,探索如何将机器学习和人工智能应用到投资选标中来。除了快,我们还想做到准和个性化

因此,我们使用机器学习和深度学习等方法,在经过数据清洗、数据重塑、特征工程等步骤处理后,实现了标的量化模型,ListingNet,从安全评分和逾期概率两个角度来评估标的。这两项任务的定义如下,都属于有监督学习中的分类问题

ListingNet的模型结构中主要包含了三块内容:逻辑回归、随机森林等基分类器,多个XGBoost模型集成学习,由全连接层组成的神经网络。同时,基分类器的输出经过Stacking之后,作为二级特征进一步输入到XGBoost和神经网络中

我们对ListingNet的模型性能进行了评测,在安全评分和逾期概率两项任务上,ListingNet的Accuracy和AUC都取得了最好的结果。我们使用以下公式来实现投资的个性化,其中前两项分别表示标的安全评分和投资人是否追求逾期收益,后两项用于表示投资人的利率偏好和期限偏好

除此之外,我们还基于推荐系统,使用基于内容的协同过滤和基于模型的协同过滤,通过计算标的相似度和用户相似度,为投资人推荐感兴趣的标的

完成了知情、知己、知心等工作之后,我们进行了数据扩充,从拍拍贷、网贷之家、今日头条等网站上,获取了聊天语料、问答数据、领域本体、知识图谱等各种类型的数据,经过相关的NLP处理后,转化成有用的数据资产

我们还开发了拍粉社区互动平台,集资讯、问答、分享等常用社交功能于一体,为投资人提供各方面服务的同时,进一步积累更多的用户产生内容

在已有数据和语料的基础上,我们实现了面向拍拍贷用户的垂直领域聊天机器人,拍知心,为投资人提供直接的对话服务。拍知心主要使用了基于规则、基于检索、基于学习三种方法来生成对话,这里我们着重介绍一下基于学习的实现原理

基于学习,是指使用基于深度LSTM网络的自编码器模型,将用户输入转换成文本词向量序列,学习到对应的隐层表示后,再转换成输出文本词向量序列,从而可以得到任意输入内容的对话输出,即Sequence to Sequence Learning,属于生成式学习模型,对话生成效果好,但对数据需求量大、训练成本较高

我们将以上功能全部实现并部署到网站上,包括平台概览、个人中心、投资顾问、拍粉社区四个页面,可以通过以下链接访问我们的网站(访问网站需要拍拍贷授权,所以需要注册拍拍贷账号,不过注册账号之后,可能会有拍拍贷工作人员电话联系,询问是否有借款或投资意向。所以如果只是想看一下产品展示,那么看展示视频即可),让我们一起来看一段展示视频,https://v.qq.com/x/page/n0538boxfjx.html

最后,对我们的作品进行一个总结。我们通过知情、知己、知心,分别为投资人提供平台概览、个人中心、投资顾问三项功能,新的投资数据可用于更新相应的模块。通过扩充数据和用户数据实现拍知心聊天机器人,拍粉社区则不断地积累新的用户数据,从而形成数据闭环,共同打造一个智能投资数据生态系统

我们的团队成员有两位,都是上海交通大学的博士生

以上就是我们的作品内容,拍知心,最懂你的智能投资顾问,谢谢大家!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,313评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,369评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,916评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,333评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,425评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,481评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,491评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,268评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,719评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,004评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,179评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,832评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,510评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,153评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,402评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,045评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,071评论 2 352

推荐阅读更多精彩内容