对数据预处理方法的整体改进意见
通过对数据预处理方法的进一步学习和分析,得出对数据预处理方法的整体改进意见如下:
第一、强调数据预处理要与专业知识和实际应用相结合,而且这种结合要实施在数据预处理的每一个步骤中。应该针对具体所要研究的问题通过详细分析后再进行预处理方法的选择,采用的方法,不论是统计方法还是其他方法,都应该结合实际所处理的数据的特点。整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流。预处理后,若挖掘结果显示和实际差异较大,在排除数据源的问题后则有必要考虑数据的二次预处理需要,以修正初次数据预处理中引入的误差或方法的不当,若二次挖掘结果仍然异常则需要另行斟酌。
第二、数据预处理的步骤问题。一般将数据预处理分为4个步骤。本文认为应该把对初始数据源的获取作为数据预处理过程中的一个步骤。因为如果在数据获得初期就有一定的指导,则可以减少数据获取的盲目性以及不必要的噪声引入,且为后期的工作节约大量的时间和空间。
故将数据预处理分为5个步骤:初始数据源的获取、数据清理、数据集成、数据变换、数据归约。第三、数据预处理的模式问题。在数据预处理的实际应用过程中,上述5个步骤并不是相互独立的,而是相关联的。因而提倡对数据预处理采取循环的模式:即一个步骤结束以后,若处理结果具有前面的处理步骤的数据特征,应当再次回到前面步骤做处理。比如数据集成后,往往应当再次进行数据清理,检测和删除可能由集成导致的冗余。
第四、对数据预处理的各步骤的改进意见。因为一个人的研究领域有限,有的改进结合了现阶段其他同志的研究,在叙述中加以了指明。内容如下:
(1)初始数据源的获取
研究发现数据挖掘得到错误的结果,多半是由数据源的质量引起的。故原始数据的获取应从源头尽量减少错误和误差,减少人为误差尤为重要,首先应了解任务所涉及到的原始数据的属性和数据结构及其代表的意义,确定所需要的数据项和数据提取原则,使用合适的手段和严格的操作规范来完成相关数据的获取。由于这一步骤涉及较多相关专业知识,可以结合专家和用户论证的方式尽量获取有较高含金量(预测能力)的变量因子。获取过程中若涉及到多源数据的抽取,由于运行的软硬件平台不同,对这些异质异构数据库要注意数据源的连接和数据格式的转换。若涉及到数据的保密,则在处理时应多注意此类相关数据的操作,对相关数据作备注说明以备查用。
初始数据源的获取这一部分的其它在4.3节做进一步的叙述。
(2)数据清理
数据清理是数据准备过程中最花费时间、最乏味的,但也是最重要的一步。该步骤可以有效地减少学习过程中可能出现相互矛盾的情况。初始获得的数据主要有以下儿种情况需要处理:
1、含噪声数据。目前最广泛的是应用数据平滑技术。对此类数据,尤其对于孤立点或异常数据,是不可以随便以删除方式进行处理的。如文献〔5〕通过分析四川木里县地区弯隆体中锰铁铝榴石带在内核通化组不同层位中呈零星孤立点状或不规则带状产出,表明深部存在不规则热隆,推测出隐伏岩体的存在。因此,对于孤立点应先进入数据库,而不进行任何处理。
当然,如果结合专业知识分析,确信无用则可进行删除处理。
2、错误数据。对带有错误的数据元组,结合数据所反映的实际问题,进行分析、更改或删除或忽略。同时也可结合模糊数学的隶属函数找约束函数,根据前一段历史数据趋势对当前数据进行修正。
3、缺失数据。数据属于时间局部性缺失的,可采用近阶段数据的线性插值法进行补缺;若时间段较一长,则应该采用该时间段的历史数据恢复丢失数据;若属于数据的空间缺损,则用其周围数据点的信息来代替,且对相关数据作备注说明,以备查用。
4、冗余数据。包括属性冗余和属性数据的冗余。若通过因子分析或经验等方法确信部分属性的相关数据足以对信息进行挖掘和决策,可通过用相关数学方法找出具有最大影响属性因子的属性数据即可,其余属性则可删除。若某属性的部分数据足以反映该问题的信息,则其余的可删除。若经过分析,这部分冗余数据可能还有他用则先保留并作备注说明。
(3)数据集成
由于不同学科方面的数据集成涉及到不同的理论依据和规则,因此,数据集成可以说是数据预处理中比较困难的一个步骤.现在在不同的领域,人们己经样就出了不少的方法:如文献在重大自然灾害集成项目中利用对多种地学数据及非地学数据的集成取得了较好的预测结果.文献基于地学知识地理信息系统的相关功能对地学数据进行集成,构建了相关概念模型,并对地学数据集成过程中涉及到的问题进行了说明.文献讨论了在多种数据库中如何处理属性和元组的冗余并提出了较好的解决方法.文献对地图学中常见的3种类型数据的集成和检索进行了详细阐述.可见此部分应更多地结合数据所涉及到的专业问题的特点来分析,需要特殊处理对策,不可一概而论。而遗传算法是一种基于生物进化论和分子遗传学的全局随机搜索算法。
在金融数据挖掘中,数据的累积比较丰富,易云东等对非线性相关分析法进行了改进,给出了高阶非线性相关的分析方法。如果进一步考虑对相关数据的全局相关性,也可以应用于数据预处理。此外,金融挖掘中数据的重要性的的排序只需简单地用全局度量指标的大小进行。
(4)数据变换
数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据,消除它们在时间、空间、属性及精度等特征表现方面的差异。这类方法虽然对原始数据都有一定的损害,但其结果往往具有更大的实用性。常用的规范化方法除了最小-最大规范化、Z-score规范化(零均值规范化)、小数定标规范化外,还可以应用主成分分析方法计算模型中的数据变换矩阵,由此可以建立起通用的数据变换维数消减模型。应用实例表明,通过数据变换可用相当少的变量来捕获原始数据的最大变化。具体采用哪种变换方法应根据涉及的相关数据的属性特点而定,根据研究目的可把定性问题定量化。也可把定量问题定性化。
(5)数据归约
文献使用SAS中称为Pr0CLogisti。的过程可以对侮个变量进行单变量的逻辑回归达到压缩数据的目的.文献通过对高维数据集合的研究,提出了两类维数消减方法:其中一种是从有关变量中消除无关、弱相关或冗余的维,寻找一个变量子集来构建模型,即子集选择法.而对诸如粗糙集这种无法处理连续属性值的数据挖掘方法,需对数据中包含的连续属性取值进行离散化,可利用概念层次树,将数据泛化到更高的层次,从而可以帮助有效减少地学习过程所涉及的输入、输出操作。
《来源科技文献,经本人整理,以技术会友,广交天下朋友》