The Optimized Selection of Base-Classifiers for Ensemble Classification using a Multi-Objective Genetic Algorithm
基于遗传算法的多目标的集成分类器基分类器优化选择问题
一、算法介绍
数据集 X 划分为训练数据 T 和选择数据 U , b 个 T 的引导子集输入到不同的基分类器 c 中,得到共计 bc 个训练分类器。选择数据 U 放入 bc 训练分类器中运行,将预测出来的标签放入遗传算法进行多目标优化。被优化的目标是分类误差以及多样性。从得到的最优的帕累托最前沿中选择分类误差最小的解作为最终的集成分类器。
二、算法步骤
1.将 X 划分为包含有 𝜃n 个数据记录的的数据集 T 用于训练和包含有 (1 − 𝜃)n个数据记录的数据集 U 用于分类器选择。
2.放回抽样地创建 b 个大小为 |T| 的引导子集。
3.对于每个引导子集 B ,训练 c 个分类器。
4.在 U 中找到对记录数据进行最佳分类的 bc 分类器的最优子集。
a)使用多目标遗传算法来实现,目标函数是最小化如下函数:
Ⅰ分类误差;
Ⅱ所选分类器错误投票之间的相关性。
b)如果帕累托前沿中包含多个数据点,选择分类误差最小的点,根据选择的分类器数量最小来打破联系。
5)选择的分类器子集就是最终的集成。
(论文最终选取b=100,𝜃=0.5)
三、实现目标
1.在使用多数投票来预测选择分类器的标签时,找到一组错误预测最少的分类器。
2.找到一组分类器,其中每个分类器都尽可能小地做出错误预测。
四、目标函数
1.分类误差函数:
其中,S是训练的基分类器的集合,U是选择数据,s(u)是分类器s对数据记录u的预测标签。mode()函数是求众数,进行的操作就是分类器投票。
这个函数就是统计所有基分类器在选择数据U上的每一个数据u分类错误的总数。
2.所选分类器错误投票之间的相关性函数:
这个函数的本质上是统计每两个分类器对同一个数据记录u分类错误的总和。
五、解决问题
1.对于集成分类,多目标优化与单目标优化相比如何?
对于这个问题,文中给出了表格,表格显示的是不同的数据集在单目标优化和多目标优化中的分类误差。
2.集成更倾向于何种类型的基分类器?
对于这个问题,文中给出了一个表格,显示出在50次遗传算法的实验中选择的分类器的次数。
要观察两项数据:①所选基分类器的数量;②所选基分类器的特定类型。
这两个数据的选择很大程度上取决于数据集。对于一些数据集,比如Segmantation需要至少4个基分类器才可以得到一个高精度的集成分类器,对于Waveform需要13.4个才可以达到同样的高性能。而每个数据集首选的基分类器的类型也有很大不同。总体而言,人工神经网络(ANN)最适用,但对于一些数据集,比如Segmantation被选次数为0.4。
这个表格中显示基分类器的平均个数为5.86个,这说明为了创建一个强大的集成分类器,只需要少量的基分类器,遗传算法大量地减少了基分类器数量,因此对准确性和多样性的优化会导致基分类器的数量减少。
3.提出的集成算法与最先进的集成算法相比如何?