方小鲸最近对社区里面的数据集进行了大扫除,整理出了一堆宝藏数据集,全部都是来自真实业务场景的数据集(都是经过脱敏处理哒)
正巧,各位校招的朋友们也要开始面试了,以下如果有各位心仪的业务方向的数据集,墙裂推荐大家下载后细品,如果能结合一些前辈的方案总结一起参悟,则更是事半功倍。到时候全场就看你一个人表演,想想就有点小激动呢。
暂时用不到的朋友们,可以点赞收藏转发退出一气呵成,毕竟,也是(据我所知)全网首次有这么多真实业务场景的数据集整在一起,没准那天就用上了呢。
-
拍拍贷互联网金融数据训练营
拍拍贷真实业务数据,包括借款人ID,借款金额,期限,利率,年龄等。其中历史信用记录相关字段均是拍拍贷内部的记录。这个数据集对应的产品类似于国内各大P2P公司所提供的个人贷款的服务,如支付宝借呗,陆金所,人人贷等,所分析的结果对于线下个人小额贷款公司及传统商业银行贷款业务也具有一定的指导意义。
-
淘宝用户分析
淘宝真实数据,提供了用户的位置信息、访问时间的规律性等,真实的用户商品行为数据。需要构建面向移动端的商品推荐模型,在正确的时间和地点为移动用户推荐合适的商品。
-
出行产品未来14个月销量预测数据集
携程出行产品脱敏后的产品信息和销量相关数据。需要大家深入了解产品需求量和产品特性、历史销量的关系,挖掘出影响需求量的关键因素,预测出行产品未来14个月每月的销量,从而指导产品的库存管理和定价策略。
-
航班动态起降数据集
飞常准提供的2G航班动态起降数据,包含历史航班动态起降数据、历史城市天气表、机场城市对应表以及历史机场特情表。用于预测计划起飞前2小时航班延误情况
-
P2P平台Prosper的贷款数据集
Prosper是美国的一家P2P在线借贷平台。网站以类似拍卖的模式,撮合一些有闲钱的人和一些急于用钱的人。该数据集提供81个维度的数据,需要大家以违约率为切入口,进行机器学习,构建贷款违约预测模型
-
手机广告点击预测数据集
Avazu(艾维邑动)是全球领先的媒体精准投放平台,提供了10天的广告点击数据,用于建立点击预测系统。在搜索和实时竞价中具有重要的应用价值。
-
黑五购物数据集
该数据集包括了五十多万条黑五消费记录,包括用户年龄、性别、婚姻状况、职业、购买金额等等信息
-
信用卡评分模型构建数据
目前拥有用户年龄,信用卡和个人信贷额度的总余额,过去2年借款人逾期,预测借款人是否会预期次数,月收入,负债比率,家属等信息,通过这些信息建立风控,信用评分模型,预测借款人是否会预期。
-
用每日新闻预测股价
股票价格预测是一件非常唬人的事情,但如果只基于历史数据进行预测,显然完全不靠谱。所以这个数据集搜集了新闻标题,搭配股价数据来进行股价预测。
新闻来自Reddit WorldNews Channel ,由Reddit用户投票决定的每天排名前25的新闻头条。
股票数据为道琼斯工业平均指数
-
真实业界数据的时间序列预测挑战
数据集采用来自业界多组相关时间序列(约40组)与外部特征时间序列(约5组),目标是建立内部与外部特征结合的多时序协同预测系统