live 简介
- 谁适合本课程?
如果你想成为数据分析、大数据、机器学习、人工智能领域的稀缺人才。零基础即可加入。 - 你将从本次课程中学到什么?
如何入门Kaggle?
理解泰坦尼克号数据
如何清洗数据?
如何使用逻辑回归进行预测?
如何提交数据分析结果到Kaggle? - 学完本课程预计达到的效果:
通过一个真实案例学会数据分析的整个过程,为后续其他的机器学习算法打下基础。
内容大纲
- 什么是Kaggle?
- 理解泰坦尼克号数据
- 如何清洗数据?
- 如何提取特征和标签?
- 如何建立机器学习模型?
- 如何评估模型?
1、云计算,大数据,机器学习算法有什么关系?
我们天天都在聊机器学习和人工智能,那我们到底在聊什么呢?
机器学习的本质是:用机器取代人直接做决策。比如淘宝有近百亿件的商品,上万个商家,给不同的用户推荐什么商品不是由人来决定的,只能是机器。让机器取代人做决策有几个非常重要的前提:云计算、大数据和机器学习算法。
没有云计算就没有办法用这么低的成本来存储和计算海量的数据,所以云计算和大数据是相互联系在一起的。因为有了云计算,所以我们能够处理这么大的数据,因为有处理大数据的需求,所以我们对云计算的要求也越来越高,最终这两者推动了整个行业不断的高速发展。云计算和大数据真的能发展起来是因为背后有一个大脑,这个大脑就是算法。
那么什么是机器学习算法呢?机器学习算法其实是把人类决策思考的过程抽象成一个模型,然后用数学的方法给这个模型找到最优化的解,然后用代码把这个解变成机器可以执行的命令,最终完成一个机器大脑的构建。所以算法就是人对一个特定事情的理解被转化成机器可以理解和执行的模型和代码,这个模型和代码和人脑不一样的地方在于最核心是靠海量数据不断地学习来优化自己的决策。
所以我们说算法和大数据是互相离不开的,如果没有大数据的场景,算法就会变成无米之炊;如果没有通过算法引擎进行实施计算产生决策结果,那么所有的数据都是被浪费的。
大数据和算法的结合就是机器学习的本质,两者的结合产生了所谓的快速迭代和快速优化。比如 Alpha-Go 打败了世界顶级围棋冠军,是因为它计算能力特别强,学习效率非常高,它可以学习人类历史上所有的棋谱。之后推出的 Alpha-Go-Zero 又有了一个更大的突破,它可以不用人的历史数据,靠左右互搏规则来制定和演化,达到一个更强的算法,打败了 Alpha-Go。可以看到未来算法的突破还有很大的空间。
算法和大数据的关系可以比作生产线和钢铁的关系,没有算法就不能处理数据,同样的没有数据就不能优化算法的结果。因此我们把人工智能分为图中的3层:第1层是基础层,在这一层我们使用云计算技术来存储海量的数据,比如淘宝的购物数据,滴滴打车的交通数据等等,为人工智能技术的实现和人工智能应用的落地提供了基础的后台保障。第2层是技术层,主要是各种处理数据的机器学习算法。第3层是应用层,比如谷歌搜索,智能医疗,无人驾驶等等。
2、机器学习步骤
3、提出问题
我们研究的问题是:什么样的人在泰坦尼克号中更容易存活?
4、理解数据
测试数据集里少了一个变量是生存率,是因为我们的目的是建立模型预测出生存率。
船舱号(Cabin)里面数据总数是295,缺失了1309-295=1014,缺失率=1014/1309=77.5%
5、练习:泰坦尼克号里面有什么?
1)了解什么是Kaggle,如何入门(长按此处打开链接):https://www.zhihu.com/question/23987009/answer/285179721
2)在电脑前面时再打开泰坦尼克号项目页面,然后下载数据(长按可以复制地址):https://www.kaggle.com/c/titanic
3)完成课程后面的章节,需要你提前学习和回顾以下课程内容: 机器学习(入门):如何用逻辑回归分类(长按此处打开链接):https://www.zhihu.com/lives/936898496209645568
6、数据清洗:数据预处理
7、练习:如何处理缺失值?
8、数据清洗:什么是特征工程?
特征工程就是最大限度地从原始数据中提取特征以供机器学习算法和模型使用。
有一句话在业界中非常流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而言。
9、如何进行特征提取?
10、练习:分类数据的特征提取
11、如何对姓名等字符串进行特征提取?
12、练习:字符串数据特征提取
13、如何进行特征选择?
14、练习:特征选择
15、如何构建模型?
16、如何评估模型?
17、练习:构建模型和评估
18、方案实施
因为我们这次课程是第1次的Kaggle项目,所以没有讲很多细节的问题,就是整体地把流程走下来。当我们在后面课程中系统学习新的机器学习算法和特征工程方法后,就可以回过头来优化这个项目,从而提高我们的排名。