这两天,各985高校发布了考研初试分数线。从中发现这两年大数据相关专业的分数线暴涨啊。没有400分估计心里都没底啊。可见大数据这个领域有多火爆!而机器学习是我们团队的一个主要方向,新加入的同学通常都是从《机器学习实战》这本书开始入门的。
所以,我把这本书的电子版分享给大家,可以作为入门教材,希望能够对大数据、机器学习感兴的同学有益。当然,这本书在网上有开源的电子版,其特点是简化了案例背景的介绍,而在每个算法后面加入了作者的理解,大家可以对照着来学习。其网址如下:
https://ailearning.apachecn.org/#/
目录
<b>第一部分 分类</b>
<b>第1章 机器学习基础</b>
- 1.1 何谓机器学习
- <u>传感器和海量数据</u>
- <u>机器学习非常重要</u>
- 1.2 关键术语
- 1.3 机器学习的主要任务
- 1.4 如何选择合适的算法
- 1.5 开发机器学习应用程序的步骤
- 1.6 Python语言的优势
- <u>可执行伪代码</u>
- <u>Python比较流行</u>
- <u>Python语言的特色</u>
- <u>Python语言的缺点</u>
- 1.7 NumPy函数库基础
- 1.8 本章小结
<b>第2章 k-近邻算法</b>
- 2.1 k-近邻算法概述
- <u>准备:使用Python导入数据</u>
- <u>从文本文件中解析数据</u>
- <u>如何测试分类器</u>
- 2.2 示例:使用k-近邻算法改进约会网站的配对效果
- <u>准备数据:从文本文件中解析数据</u>
- <u>分析数据:使用Matplotlib创建散点图</u>
- <u>准备数据:归一化数值</u>
- <u>测试算法:作为完整程序验证分类器</u>
- <u>使用算法:构建完整可用系统</u>
- 2.3 示例:手写识别系统
- <u>准备数据:将图像转换为测试向量</u>
- <u>测试算法:使用k-近邻算法识别手写数字</u>
- 2.4 本章小结
<b>第3章 决策树</b>
- 3.1 决策树的构造
- <u>信息增益</u>
- <u>划分数据集</u>
- <u>递归构建决策树</u>
- 3.2 在Python中使用Matplotlib注解绘制树形图
- <u>Matplotlib注解</u>
- <u>构造注解树</u>
- 3.3 测试和存储分类器
- <u>测试算法:使用决策树执行分类</u>
- <u>使用算法:决策树的存储</u>
- 3.4 示例:使用决策树预测隐形眼镜类型
- 3.5 本章小结
<b>第4章 基于概率论的分类方法:朴素贝叶斯</b>
- 4.1 基于贝叶斯决策理论的分类方法
- 4.2 条件概率
- 4.3 使用条件概率来分类
- 4.4 使用朴素贝叶斯进行文档分类
- 4.5 使用Python进行文本分类
- <u>准备数据:从文本中构建词向量</u>
- <u>训练算法:从词向量计算概率</u>
- <u>测试算法:根据现实情况修改分类器</u>
- <u>准备数据:文档词袋模型</u>
- 4.6 示例:使用朴素贝叶斯过滤垃圾邮件
- <u>准备数据:切分文本</u>
- <u>测试算法:使用朴素贝叶斯进行交叉验证</u>
- 4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向
- <u>收集数据:导入RSS源</u>
- <u>分析数据:显示地域相关的用词</u>
- 4.8 本章小结
<b>第5章 Logistic回归</b>
- 5.1 基于Logistic回归和Sigmoid函数的分类
- 5.2 基于最优化方法的最佳回归系数确定
- <u>梯度上升法</u>
- <u>训练算法:使用梯度上升找到最佳参数</u>
- <u>分析数据:画出决策边界</u>
- <u>训练算法:随机梯度上升</u>
- 5.3 示例:从疝气病症预测病马的死亡率
- <u>准备数据:处理数据中的缺失值</u>
- <u>测试算法:用Logistic回归进行分类</u>
- 5.4 本章小结
<b>第6章 支持向量机</b>
- 6.1 基于最大间隔分隔数据
- 6.2 寻找最大间隔
- <u>分类器求解的优化问题</u>
- <u>SVM应用的一般框架</u>
- 6.3 SMO高效优化算法
- <u>Platt的SMO算法</u>
- <u>应用简化版SMO算法处理小规模数据集</u>
- 6.4 利用完整Platt SMO算法加速优化
- 6.5 在复杂数据上应用核函数
- <u>利用核函数将数据映射到高维空间</u>
- <u>径向基核函数</u>
- <u>在测试中使用核函数</u>
- 6.6 示例:手写识别问题回顾
- 6.7 本章小结
<b>第7章 利用AdaBoost元算法提高分类性能</b>
- 7.1 基于数据集多重抽样的分类器
- <u>bagging:基于数据随机重抽样的分类器构建方法</u>
- <u>boosting</u>
- 7.2 训练算法:基于错误提升分类器的性能
- 7.3 基于单层决策树构建弱分类器
- 7.4 完整AdaBoost算法的实现
- 7.5 测试算法:基于AdaBoost的分类
- 7.6 示例:在一个难数据集上应用AdaBoost
- 7.7 非均衡分类问题
- <u>其他分类性能度量指标:正确率、召回率及ROC曲线</u>
- <u>基于代价函数的分类器决策控制</u>
- <u>处理非均衡问题的数据抽样方法</u>
- 7.8 本章小结
<b>第二部分 利用回归预测数值型数据</b>
<b>第8章 预测数值型数据:回归</b>
- 8.1 用线性回归找到最佳拟合直线
- 8.2 局部加权线性回归
- 8.3 示例:预测鲍鱼的年龄
- 8.4 缩减系数来“理解”数据
- <u>岭回归</u>
- <u>lasso</u>
- <u>前向逐步回归</u>
- 8.5 权衡偏差与方差
- 8.6 示例:预测乐高玩具套装的价格
- <u>收集数据:使用Google购物的API</u>
- <u>训练算法:建立模型</u>
- 8.7 本章小结
<b>第9章 树回归</b>
- 9.1 复杂数据的局部性建模
- 9.2 连续和离散型特征的树的构建
- 9.3 将CART算法用于回归
- <u>构建树</u>
- <u>运行代码</u>
- 9.4 树剪枝
- <u>预剪枝</u>
- <u>后剪枝</u>
- 9.5 模型树
- 9.6 示例:树回归与标准回归的比较
- 9.7 使用Python的Tkinter库创建GUI
- <u>用Tkinter创建GUI</u>
- <u>集成Matplotlib和Tkinter</u>
- 9.8 本章小结
<b>第三部分 无监督学习</b>
<b>第10章 利用K-均值聚类算法对未标注数据分组</b>
- 10.1 K-均值聚类算法
- 10.2 使用后处理来提高聚类性能
- 10.3 二分K-均值算法
- 10.4 示例:对地图上的点进行聚类
- <u>Yahoo! PlaceFinder API</u>
- <u>对地理坐标进行聚类</u>
- 10.5 本章小结
<b>第11章 使用Apriori算法进行关联分析</b>
- 11.1 关联分析
- 11.2 Apriori原理
- 11.3 使用Apriori算法来发现频繁集
- <u>生成候选项集</u>
- <u>组织完整的Apriori算法</u>
- 11.4 从频繁项集中挖掘关联规则
- 11.5 示例:发现国会投票中的模式
- <u>收集数据:构建美国国会投票记录的事务数据集</u>
- <u>测试算法:基于美国国会投票记录挖掘关联规则</u>
- 11.6 示例:发现毒蘑菇的相似特征
- 11.7 本章小结
<b>第12章 使用FP-growth算法来高效发现频繁项集</b>
- 12.1 FP树:用于编码数据集的有效方式
- 12.2 构建FP树
- <u>创建FP树的数据结构</u>
- <u>构建FP树</u>
- 12.3 从一棵FP树中挖掘频繁项集
- <u>抽取条件模式基</u>
- <u>创建条件FP树</u>
- 12.4 示例:在Twitter源中发现一些共现词
- 12.5 示例:从新闻网站点击流中挖掘
- 12.6 本章小结
<b>第四部分 其他工具</b>
<b>第13章 利用PCA来简化数据</b>
- 13.1 降维技术
- 13.2 PCA
- <u>移动坐标轴</u>
- <u>在NumPy中实现PCA</u>
- 13.3 示例:利用PCA对半导体制造数据降维
- 13.4 本章小结
<b>第14章 利用SVD简化数据</b>
- 14.1 SVD的应用
- <u>隐性语义索引</u>
- <u>推荐系统</u>
- 14.2 矩阵分解
- 14.3 利用Python实现SVD
- 14.4 基于协同过滤的推荐引擎
- <u>相似度计算</u>
- <u>基于物品的相似度还是基于用户的相似度?</u>
- <u>推荐引擎的评价</u>
- 14.5 示例:餐馆菜肴推荐引擎
- <u>推荐未尝过的菜肴</u>
- <u>利用SVD提高推荐的效果</u>
- <u>构建推荐引擎面临的挑战</u>
- 14.6 基于SVD的图像压缩
- 14.7 本章小结
<b>第15章 大数据与MapReduce</b>
- 15.1 MapReduce:分布式计算的框架
- 15.2 Hadoop流
- <u>分布式计算均值和方差的mapper</u>
- <u>分布式计算均值和方差的reducer</u>
- 15.3 在Amazon网络服务上运行Hadoop程序
- <u>AWS上的可用服务</u>
- <u>开启Amazon网络服务之旅</u>
- <u>在EMR上运行Hadoop作业</u>
- 15.4 MapReduce上的机器学习
- 15.5 在Python中使用mrjob来自动化MapReduce
- <u>mrjob与EMR的无缝集成</u>
- <u>mrjob的一个MapReduce脚本剖析</u>
- 15.6 示例:分布式SVM的Pegasos算法
- <u>Pegasos算法</u>
- <u>训练算法:用mrjob实现MapReduce版本的SVM</u>
- 15.7 你真的需要MapReduce吗?
- 15.8 本章小结
<b>附录A Python入门</b>
<b>附录B 线性代数</b>
<b>附录C 概率论复习</b>
<b>附录D 资源</b>
<b>索引</b>
<b>版权声明</b>
推荐阅读
下载《机器学习实战》
关注公众号,后台回复
20190313