浅谈数据挖掘评估技术
前言:模型的性能评估是数据挖掘过程中重要的步骤,是模型能否投入到实际使用当中的一个重要环节。
一、数据挖掘评估概述
数据挖掘过程中需要评估过程的内容和环节示意图
其中产生影响的步骤:
1数据:数据应用分层法进行分类收集和整理,应用概念层化方法处理数据。
2参数:利用模型比较技术来选取合适的模型,并确定模型的参数。
3数据挖掘技术:选择挖掘技术的时候,要考虑数据的特性,如果数据的分布不是正态分布,最好不要使用基于统计的数学模型。利用模型比较技术,选出离目标最好的结果。
4模型:监督的模型利用检验数据进行评估,使用分类正确率和混淆矩阵进行,再使用置信区间进行可信度评估。非监督模型利用计算每个聚类形成的簇中的实例与该簇中心的误差平方作为簇的质量的度量。
5检验集:随机抽取数据,确保数据分布。
评估工具
评估监督学习模型
上面我们谈了如何评估一个监督的学习模型,接下来我们讲述不同的监督徐熙模型之间的比较方法:
1使用Lift比较模型
Lift度量了一个偏差样本内的类C的期望集中度相对于总体内的C的集中度的百分比的变化。Lift用来评估一个有指导的分类或预测模型是否有效。评估不同监督模型之间的性能优越度。
2通过假设检验比较模型
通过假设检验来比较两个用同样训练集创建的有指导学习模型。
说完模型之间的评估技术,接下来是对于属性的评估
以上就是数据挖掘过程中涉及的内容,应该使用什么样的方法来进行评估,建立出最优模型。