简介
数据科学项目为你提供了一个有前途的方式来开展你的数据分析职业生涯。通过实际应用不仅学习了数据科学,你也得到了可以在简历里展示的项目。如今,招聘人员都是通过一个人的工作来评估候选人的潜力,而不是通过证书和简历。如果你只是告诉别人你所拥有的知识,却没有什么可以展示给他们,那么就毫无意义!这也是大多数人挣扎并错过的地方!
你可能已经解决了几个问题,但如果你不能呈现或者解释它们,怎么会有人知道你的能力?这就是这些项目将帮助你的地方。你可以把在这些项目上花费的时间当作你的培训课程。我保证,你花的时间越多,你就会成为更好的数据分析师!
下面列表中的项目都是精选过的,确保为你提供各种各样的问题,从不同的领域到不同的大小。我相信,每个人都必须学会如何巧妙地处理大型数据集,因此大数据集也被加了进来。另外,我已确保所有的数据集是开放的,并且可以免费访问。
补充信息
为了帮助你决定从哪儿开始,我把数据集分成了3个难度水准:
初学水平:
这个水平的数据集相当容易处理,并且不需要复杂度数据科学技术。你可以用基础的回归/分类算法来解决。而且,这些数据都有足够的教程来让你学习。在这个列表里,我也提供了能帮助你开始的教程。
中等水平:
这个水平的数据集就有点难度了。包含了需要使用厉害的模式识别技能的中/大型数据集。另外,特征工程在这里开始发挥它的作用了。不会再有机器学习技术的限制,任何所知的技术都可以拿来用。
高级水平: 这个水平最适合那些已经理解了高级话题的人,例如神经网络,深度学习,推荐系统等等。高维数据在这里面很常见。另外,这也是发挥创造力的地方,看看那些最优秀的数据科学家在工作上和代码里多么有创造力!
目录
- 初学水平
- Iris Data
- Titanic Data
- Loan Prediction Data
- Bigmart Sales Data
- Boston Housing Data
- 中级水平
- Human Activity Recognition Data
- Black Friday Data
- Siam Competition Data
- Trip History Data
- Million Song Data
- Census Income Data
- Movie Lens Data
- 高级水平
- Identify your Digits
- Yelp Data
- ImageNet Data
- KDD Cup 1998
- Chicago Crime Data
初学水平
- Iris Data Set(鸢尾花)
问题: 根据已有的特征给花分类。
开始: 获取数据 | 教程: 获取教程(英文) - Titanic Data Set
问题: 预测泰坦尼克上活下来的乘客。
开始: 获取数据 | 教程: 获取教程(英文) - Loan Prediction Data Set(借贷预测)
问题: 预测一项贷款是否会被批准。
开始: 获取数据 | 教程: 获取教程 - Bigmart Sales Data Set(超市销量)
问题: 预测销售。
开始: 获取数据 | 教程: 获取教程 - Boston Housing Data Set
问题: 预测业主拥有的房屋的中位数。
开始: 获取数据 | 教程: 获取教程
中等水平
-
Human Activity Recognition(人类活动预测)
问题: 预测人类的活动范畴。
开始: 获取数据 -
Black Friday Data Set(黑色星期五)
问题: 预测消费金额。
开始: 获取数据 -
Text Mining Data Set(文本挖掘)
问题: 根据标签给文档分类。
开始: 获取数据 | 获取资料 -
Trip History Data Set(旅行历史)
问题: 预测用户的类别。
开始: 获取数据 -
Million Song Data Set(音乐数据)
问题: 预测歌曲的发布时间。
开始: 获取数据 -
Census Income Data Set
问题: 预测美国人口的收入等级。
开始: 获取数据 -
Movie Lens Data Set (电影推荐)
问题: 给用户推荐新电影。
开始: 获取数据
高级水平
-
Identify your Digits Data Set
问题: 识别照片中的元素。
开始: 获取数据 -
Yelp Data Set
问题: 从图片里获取信息。
开始: 获取数据 -
Image Net Data Set
问题: 根据你下载的图片类型不同而不同
开始: 获取数据 -
KDD 1999 Data Set(KDD是数据科学领域的跨学科会议)
问题: 给网络入侵检测器分好坏。
开始: 获取数据 -
Chicago Crime Data Set
问题: 预测犯罪类型。
开始: 获取数据 | 要下载数据,点击 Export -> CSV
尾注
从上面的17个数据集,你应该找出最符合你能力的开始。也就是说,如果你是机器学习的新手,尽量避免选择高级水平的数据集。别贪多,也别被这么多要做的吓到了。相反,想想怎么让自己进步。一旦你完成了2-3个项目,把它们展示在你的简历上和github上(非常重要!)。现在许多猎头通过追踪github资料。你不要想着做完所有的项目,而是应该选出基于数据集,领域,数据大小最令你感兴趣的。