数据挖掘之评价模型
层次分析法(AHP)
基本思想:
是定性与定量相结合的多准则决策、评价方法。将决策的有关元素分解成目标层、准则层和方案层,并通过人们的判断对决策方案的优劣进行排序,在此基础上进行定性和定量分析。它把人的思维过程层次化、数量化,并用数学为分析、决策、评价、预报和控制提供定量的依据。
基本步骤:
构建层次结构模型;构建成对比较矩阵;层次单排序及一致性检验(即判断主观构建的成对比较矩阵在整体上是否有较好的一致性);层次总排序及一致性检验(检验层次之间的一致性)。
优点:
它完全依靠主观评价做出方案的优劣排序,所需数据量少,决策花费的时间很短。从整体上看,AHP在复杂决策过程中引入定量分析,并充分利用决策者在两两比较中给出的偏好信息进行分析与决策支持,既有效地吸收了定性分析的结果,又发挥了定量分析的优势,从而使决策过程具有很强的条理性和科学性,特别适合在社会经济系统的决策分析中使用。
缺点:
用AHP进行决策主观成分很大。当决策者的判断过多地受其主观偏好影响,而产生某种对客观规律的歪曲时,AHP的结果显然就靠不住了。
适用范围:
尤其适合于人的定性判断起重要作用的、对决策结果难于直接准确计量的场合。要使AHP的决策结论尽可能符合客观规律,决策者必须对所面临的问题有比较深入和全面的认识。另外,当遇到因素众多,规模较大的评价问题时,该模型容易出现问题,它要求评价者对问题的本质、包含的要素及其相互之间的逻辑关系能掌握得十分透彻,否则评价结果就不可靠和准确。
改进方法:
(1)成对比较矩阵可以采用德尔菲法获得。
(2)如果评价指标个数过多(一般超过9个),利用层次分析法所得到的权重就有一定的偏差,继而组合评价模型的结果就不再可靠。可以根据评价对象的实际情况和特点,利用一定的方法,将各原始指标分层和归类,使得每层各类中的指标数少于9个。
灰色综合评价法(灰色关联度分析)
基本思想:
灰色关联分析的实质就是,可利用各方案与最优方案之间关联度大小对评价象进行比较、排序。关联度越大,说明比较序列与参考序列变化的态势越一致,反之,变化态势则相悖。由此可得出评价结果。
基本步骤:
建立原始指标矩阵;确定最优指标序列;进行指标标准化或无量纲化处理;求差序列、最大差和最小差;计算关联系数;计算关联度。
优点:
是一种评价具有大量未知信息的系统的有效模型,是定性分析和定量分析相结合的综合评价模型,该模型可以较好地解决评价指标难以准确量化和统计的问题,可以排除人为因素带来的影响,使评价结果更加客观准确。整个计算过程简单,通俗易懂,易于为人们所掌握;数据不必进行归一化处理,可用原始数据进行直接计算,可靠性强;评价指标体系可以根据具体情况增减;无需大量样本,只要有代表性的少量样本即可。
缺点:
要求样本数据且具有时间序列特性;只是对评判对象的优劣做出鉴别,并不反映绝对水平,故基于灰色关联分析综合评价具有“相对评价”的全部缺点。
适用范围:
对样本量没有严格要求,不要求服从任何分布,适合只有少量观测数据的问题;应用该种方法进行评价时,指标体系及权重分配是一个关键的题,选择的恰当与否直接影响最终评价结果。
改进方法:
(1)采用组合赋权法:根据客观赋权法和主观赋权法综合而得权系数。
(2)结合TOPSIS法:不仅关注序列与正理想序列的关联度,而且关注序列与负理想序列的关联度,依据公式计算最后的关联度。
模糊综合评价法
基本思想:是以模糊数学为基础,应用模糊关系合成的原理,将一些边界不清、不易定量的因素定量化,从多个因素对被评价事物隶属等级(或称为评语集)状况进行综合性评价的一种方法。综合评判对评判对象的全体,根据所给的条件,给每个对象赋予一个非负实数评判指标,再据此排序择优。
基本步骤:确定因素集、评语集;构造模糊关系矩阵;确定指标权重;进行模糊合成和做出评价。
优点:
:数学模型简单,容易掌握,对多因素、多层次的复杂问题评判效果较好。模糊评价模型不仅可对评价对象按综合分值的大小进行评价和排序,而且还可根据模糊评价集上的值按最大隶属度原则去评定对象所属的等级,结果包含的信息量丰富。评判逐对进行,对被评对象有唯一的评价值,不受被评价对象所处对象集合的影响。接近于东方人的思维习惯和描述方法,因此它更适用于对社会经济系统问题进行评价。
缺点:
并不能解决评价指标间相关造成的评价信息重复问题,隶属函数的确定还没有系统的方法,而且合成的算法也有待进一步探讨。其评价过程大量运用了人的主观判断,由于各因素权重的确定带有一定的主观性,因此,总的来说,模糊综合评判是一种基于主观信息的综合评价方法。
应用范围:
广泛地应用于经济管理等领域。综合评价结果的可靠性和准确性依赖于合理选取因素、因素的权重分配和综合评价的合成算子等。
改进方法:
(1)采用组合赋权法:根据客观赋权法和主观赋权法综合而得权系数。
BP神经网络综合评价法
基本思想:
是一种交互式的评价方法,它可以根据用户期望的输出不断修改指标的权值,直到用户满意为止。因此,一般来说,人工神经网络评价方法得到的结果会更符合实际情况。
优点:
神经网络具有自适应能力,能对多指标综合评价问题给出一个客观评价,这对于弱化权重确定中的人为因素是十分有益的。在以前的评价方法中,传统的权重设计带有很大的模糊性,同时权重确定中人为因素影响也很大。随着时间、空间的推移,各指标对其对应题的影响程度也可能发生变化,确定的初始权重不一定符合实际情况。再者,考虑到整个分析评价是一个复杂的非线性大系统,必须建立权重的学习机制,这些方面正是人工神经网络的优势所在。针对综合评价建模过程中变量选取方法的局限性,采用神经网络原理可对变量进行贡献分析,进而剔除影响不显著和不重要的因素,以建立简化模型,可以避免主观因素对变量选取的干扰。
缺点:
ANN在应用中遇到的最大问题是不能提供解析表达式,权值不能解释为一种回归系数,也不能用来分析因果关系,目前还不能从理论上或从实际出发来解释ANN的权值的意义。需要大量的训练样本,精度不高,应用范围是有限的。最大的应用障碍是评价算法的复杂性,人们只能借助计算机进行处理,而这方面的商品化软件还不够成熟。
适用范围:
神经网络评价模型具有自适应能力、可容错性,能够处理非线性、非局域性的大型复杂系统。在对学习样本训练中,无需考虑输入因子之间的权系数,ANN通过输入值与期望值之间的误差比较,沿原连接权自动地进行调节和适应,因此该方法体现了因子之间的相互作用。
改进方法:
(1)采用组合评价法:对用其它评价方法得出的结果,选取一部分作为训练样本,一部分作为待测样本进行检验,如此对神经网络进行训练,知道满足要求为止,可得到更好的效果。
数据包络法(DEA)
通过明确地考虑多种投入(即资源)的运用和多种产出(即服务)的产生,它能够用来比较提供相似服务的多个服务单位之间的效率,这项技术被称为数据包络线分析(DEA)。它避开了计算每项服务的标准成本,因为它可以把多种投入和多种产出转化为效率比率的分子和分母,而不需要转换成相同的货币单位。因此,用DEA衡量效率可以清晰地说明投入和产出的组合,从而,它比一套经营比率或利润指标更具有综合性并且更值得信赖。
DEA是一个线形规划模型,表示为产出对投入的比率。通过对一个特定单位的效率和一组提供相同服务的类似单位的绩效的比较,它试图使服务单位的效率最大化。在这个过程中,获得100%效率的一些单位被称为相对有效率单位,而另外的效率评分低于100%的单位本称为无效率单位。
这样,企业管理者就能运用DEA来比较一组服务单位,识别相对无效率单位,衡量无效率的严重性,并通过对无效率和有效率单位的比较,发现降低无效率的方法。
DEA线形规划模型建立如下:
1) 定义变量
设Ek(k=1,2,……, K)为第k个单位的效率比率,这里K代表评估单位的总数。
设uj(j=1,2,……, M)为第j种产出的系数,这里M代表所考虑的产出种类的总数。变量uj用来衡量产出价值降低一个单位所带来的相对的效率下降。
设vI(I=1,2,……,N)为第I种投入的系数,这里N代表所考虑的投入种类的综合素。变量vI用来衡量投入价值降低一个单位带来的相对的效率下降。
设Ojk为一定时期内由第k个服务单位所创造的第j种产出的观察到的单位的数量。
设Iik为一定时期内由第k个服务单位所使用的第i种投入的实际的单位的数量。
2) 目标函数
目标是找出一组伴随每种产出的系数u和一组伴随每种投入的系数ν,从而给被评估的服务单位最高的可能效率。
(*)
式中,e是被评估单位的代码。 这个函数满足这样一个约束条件,当同一组投入和产出的系数(uj和vi)用于所有其他对比服务单位时,没有一个服务单位将超过100%的效率或超过1.0的比率。
3) 约束条件
(**)
k=1,2,……,K
式中所有系数值都是正的且非零。
为了用标准线性规划软件求解这个有分数的线性规划,需要进行变形。要注意,目标函数和所有约束条件都是比率而不是线性函数。通过把所评估单位的投入人为地调整为总和1.0,这样等式(*)的目标函数可以重新表述为:
满足以下约束条件:
对于个服务单位,等式(**)的约束条件可类似转化为:
k=1,2,…,K
式中 uj≥0 j=1,2,…,M vi≥0 i=1,2,…,N
关于服务单位的样本数量问题是由在分析种比较所挑选的投入和产出变量的数量所决定的。下列关系式把分析中所使用的服务单位数量K和所考虑的投入种类数N与产出种类数M联系出来,它是基于实证发现和DEA实践的经验:
组合评价法
首先阐述问题,包括识别突出的属性以及规定这些属性的水平。用这些属性的水平构造组合,以突出刺激因素,供被调查者作评价。被调查者利用适当的量表给这些组合形式评分或排序,然后对这些数据进行分析。最后解释分析的结果并评价其信度和效度。
(1)确认问题的属性和水平
研究者必须首先识别并确定构造该研究问题的重要刺激因素,即所谓属性。该属性应该是影响消费者喜好的突出属性,例如,在选择汽车品牌时,价格、排量、油耗、车内空间等等比较敏感。从经济管理的角度说,属性和属性的水平应该都是可操作的。你必须用精力所能控制的属性来定义、识别和确定属性,典型的组合分析一般可以涉及6-7个属性(也可以叫做变量)。
确定了突出的属性之后就是选择水平。为减轻被调查者的负担,同时又使参数估计保证一定的精度,需要认真考虑属性水平的个数。
(2)构成组合形式
属性及水平用于构成组合形式,以突出激励因素。构成组合形式的方法主要有配对法和全轮廓法。
配对法也叫双因子评价,一般采用循环设计来减少配比比较的个数。
全轮廓法也叫多因子评价,常常借助由于正交表进行设计。
(3)决定输入数据的形式
输入数据主要有两种形式:排序或评分。排序法是要对刺激因素集合中的所有属性水平作相对的评价,要求对每个组合给出一个不同的等级(秩)。评分法是要对每一个组合独立地进行评价。有人认为评分法更加便于被调查者作评价,所得的数据也比排序法更易于分析。近年来评分法用得更为普遍。
(4)选择组合分析的具体方法
基本的组合分析模型可以用下面的公式表示:
m ki
U(X)=∑ ∑aij xi
j=i j=i
其中,U(X)代表方案的总效用等
aij代表第i个属性(i,i=1,2,……m)的第j个水平的分值贡献或者效用。
ki代表属性的水平个数
m代表属性个数
xij=l 如果第i个属性的第j个水平出现
xij=0 其他
属性的重要性定义为该属性水平的最大分值与最小分值之差:
Li={max(aij)-min(aij)}
对每个i属性的重要性是经标准化的数字处理。经此表示其对别的属性的重要性。
(5)解释结果
为了更直观地解释结果,一般借助于分值(效用)函数的图形,将每个属性的分值函数作图。
(6) 评估信度和效度
评价组合分析结果的信度和效度,有多种方法,常用的有:
1.评价估计模型的拟合优度;
2.用检验-再检验法来评价信度;
3.用估计出来的分值函数作为评价的预测值,计算该预测值与被调查的实际评估值之间的相关,用以确定内部效度;
4.如果数据是按集合进行分析的,那么可以将样本分别分割成几个部分,再对每个子样本实施组合分析。比较这些子样本的结果就可以评价组合分析的解的稳定性。
优点
组合分析的主要优点就是为新产品或各种市场营销方案提供决策的参考信息。