获取数据(约3h):
- 获取互联网上的公开数据集
- 用网站 API 爬取网页数据
- 爬虫所需的 HTML 基础
- 基于 HTML 的爬虫,Python(Beautifulsoup)实现
- 网络爬虫高级技巧:使用代理和反爬虫机制
-
应用案例:爬取豆瓣 TOP250 电影信息并存储
数据存储与预处理(3h)
- review SQL;
- 数据库进阶操作:数据过滤与分组聚合
- 用 Python 进行数据库连接与数据查询
- 其他类型数据库:SQLite&MongoDB
- 用 Pandas 进行数据预处理:数据清洗与可视化
统计学基础与 Python 数据分析
)探索型数据分析:绘制统计图形展示数据分布
2)通过统计图形探究数据分布的潜在规律
3)描述统计学:总体、样本和误差,基本统计量
4)推断统计学:概率分布和假设检验
5)在实际分析中应用不同的假设检验
6)预测型数据分析:线性回归
7)Python中进行线性回归(scikit-learn实现)
- 预测型数据分析:分类及逻辑回归
- 其它常用算法(k近邻、决策树、随机森林)
- 预测型数据分析:聚类算法(k均值、DBSCAN)
- 用特征选择方法优化模型
- 用 scikit-learn 实现数据挖掘建模全过程
- 用 rapidminer 解决商业分析关键问题
- 高级数据分析工具:机器学习、深度学习初探
先复习台湾交通大学统计学基础、进阶
统计学:http://ocw.nctu.edu.tw/upload/classbfs12090115581527.pdf
http://ocw.nctu.edu.tw/upload/classbfs120901161347184.pdf
高级统计学课件:http://ocw.nctu.edu.tw/upload/classbfs1209012042138837.pdf
尽量完成机器学习实战的主要不熟悉部分代码(决策树、randomforest、svm、kmeans)
周志华的机器学习理论推导辅助理解
svm以及高维量的推导涉及到向量运算(求导),给出台湾交通大学课件http://ocw.nctu.edu.tw/course_detail-s.php?bgid=1&gid=1&nid=14