此部分内容来自对《Python数据分析与数据化运营》4.8节 其他数据分析和挖掘的忠告 1 不要忘记数据质量的验证 数据质量是所有数据工作中最基...
此部分内容来自对《Python数据分析与数据化运营》4.7节 路径、漏斗、归因和热力图分析路径分析、漏斗分析、归因分析和热力图分析原本是网站数据...
此部分内容来自对《Python数据分析与数据化运营》4.6节 异常检测 的读书笔记。时间序列是用来研究数据随时间变化趋势而变化的一类算法,它是一...
此部分内容来自对《Python数据分析与数据化运营》4.5节 异常检测 的读书笔记。数据中的异常数据通常被认为是异常点、离群点或孤立点,特点是这...
此部分内容来自对《Python数据分析与数据化运营》4.4节 关联分析 的读书笔记。关联分析通过寻找最能够解释数据变量之间关系的规则,来找出大量...
随机森林是在Bagging策略的基础上进行修改后的一种算法。 随机:数据采样随机,特征选择随机 森林:很多个决策树并行放在一起 9.1 算法的基...
8.1 基本思想 集成学习通过构建并结合多个学习器来完成学习任务。集成学习把性能较低的 多种弱学习器,通过适当组合形成高性能强学习器的方法。常见...
针对聚类K-means算法中不能对特定形状的样本进行分类,提出了一种新的聚类算法(DBSCAN)。DBSCAN 是一种著名的密度聚类算法,它基于...
前面介绍的5种机器学习算法都属于监督学习,即对于一组输入有与之对应的类别(分类)或者相对应的值(回归)。而接下来要介绍的一种算法,聚类属于无监督...