数据挖掘的过程分成以下 6 个步骤:
1. 商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。
2. 数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。
3. 数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。
4. 模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
5. 模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标。
6. 上线发布:模型的作用是从数据中找到金矿,也就是我们所说的“知识”,获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分,那么后续的监控和维护就会变得重要。
数据挖掘的十大算法
l 分类算法:C4.5(决策树),朴素贝叶斯(Naive Bayes 判断未知物体的分类),SVM( Support Vector Machine 支持向量机),KNN(K-Nearest Neighbor K 最近邻算法:就是每个样本都可以用它最接近的 K 个邻居来代表。如果一个样本,它的 K 个最接近的邻居都属于分类A,那么这个样本也属于分类 A。),Adaboost(构建分类器的提升算法),CART( Classification and Regression Trees 分类和回归树:一个决策树学习方法)。
l 聚类算法:K-Means(聚类算法),EM(最大期望算法)
l 关联分析:Apriori(挖掘关联规则(association rules)的算法)
l 连接分析:PageRank(引用得越多,权重越高)