2019-10-24

对数据预处理方法的整体改进意见

对数据预处理方法的整体改进意见

通过对数据预处理方法的进一步学习和分析,得出对数据预处理方法的整体改进意见如下:

第一、强调数据预处理要与专业知识和实际应用相结合,而且这种结合要实施在数据预处理的每一个步骤中。应该针对具体所要研究的问题通过详细分析后再进行预处理方法的选择,采用的方法,不论是统计方法还是其他方法,都应该结合实际所处理的数据的特点。整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流。预处理后,若挖掘结果显示和实际差异较大,在排除数据源的问题后则有必要考虑数据的二次预处理需要,以修正初次数据预处理中引入的误差或方法的不当,若二次挖掘结果仍然异常则需要另行斟酌。

第二、数据预处理的步骤问题。一般将数据预处理分为4个步骤。本文认为应该把对初始数据源的获取作为数据预处理过程中的一个步骤。因为如果在数据获得初期就有一定的指导,则可以减少数据获取的盲目性以及不必要的噪声引入,且为后期的工作节约大量的时间和空间。

故将数据预处理分为5个步骤:初始数据源的获取、数据清理、数据集成、数据变换、数据归约。第三、数据预处理的模式问题。在数据预处理的实际应用过程中,上述5个步骤并不是相互独立的,而是相关联的。因而提倡对数据预处理采取循环的模式:即一个步骤结束以后,若处理结果具有前面的处理步骤的数据特征,应当再次回到前面步骤做处理。比如数据集成后,往往应当再次进行数据清理,检测和删除可能由集成导致的冗余。

第四、对数据预处理的各步骤的改进意见。因为一个人的研究领域有限,有的改进结合了现阶段其他同志的研究,在叙述中加以了指明。内容如下:

(1)初始数据源的获取

研究发现数据挖掘得到错误的结果,多半是由数据源的质量引起的。故原始数据的获取应从源头尽量减少错误和误差,减少人为误差尤为重要,首先应了解任务所涉及到的原始数据的属性和数据结构及其代表的意义,确定所需要的数据项和数据提取原则,使用合适的手段和严格的操作规范来完成相关数据的获取。由于这一步骤涉及较多相关专业知识,可以结合专家和用户论证的方式尽量获取有较高含金量(预测能力)的变量因子。获取过程中若涉及到多源数据的抽取,由于运行的软硬件平台不同,对这些异质异构数据库要注意数据源的连接和数据格式的转换。若涉及到数据的保密,则在处理时应多注意此类相关数据的操作,对相关数据作备注说明以备查用。

初始数据源的获取这一部分的其它在4.3节做进一步的叙述。

(2)数据清理

数据清理是数据准备过程中最花费时间、最乏味的,但也是最重要的一步。该步骤可以有效地减少学习过程中可能出现相互矛盾的情况。初始获得的数据主要有以下儿种情况需要处理:

1、含噪声数据。目前最广泛的是应用数据平滑技术。对此类数据,尤其对于孤立点或异常数据,是不可以随便以删除方式进行处理的。如文献〔5〕通过分析四川木里县地区弯隆体中锰铁铝榴石带在内核通化组不同层位中呈零星孤立点状或不规则带状产出,表明深部存在不规则热隆,推测出隐伏岩体的存在。因此,对于孤立点应先进入数据库,而不进行任何处理。

当然,如果结合专业知识分析,确信无用则可进行删除处理。

2、错误数据。对带有错误的数据元组,结合数据所反映的实际问题,进行分析、更改或删除或忽略。同时也可结合模糊数学的隶属函数找约束函数,根据前一段历史数据趋势对当前数据进行修正。

3、缺失数据。数据属于时间局部性缺失的,可采用近阶段数据的线性插值法进行补缺;若时间段较一长,则应该采用该时间段的历史数据恢复丢失数据;若属于数据的空间缺损,则用其周围数据点的信息来代替,且对相关数据作备注说明,以备查用。

4、冗余数据。包括属性冗余和属性数据的冗余。若通过因子分析或经验等方法确信部分属性的相关数据足以对信息进行挖掘和决策,可通过用相关数学方法找出具有最大影响属性因子的属性数据即可,其余属性则可删除。若某属性的部分数据足以反映该问题的信息,则其余的可删除。若经过分析,这部分冗余数据可能还有他用则先保留并作备注说明。

(3)数据集成

由于不同学科方面的数据集成涉及到不同的理论依据和规则,因此,数据集成可以说是数据预处理中比较困难的一个步骤.现在在不同的领域,人们己经样就出了不少的方法:如文献在重大自然灾害集成项目中利用对多种地学数据及非地学数据的集成取得了较好的预测结果.文献基于地学知识地理信息系统的相关功能对地学数据进行集成,构建了相关概念模型,并对地学数据集成过程中涉及到的问题进行了说明.文献讨论了在多种数据库中如何处理属性和元组的冗余并提出了较好的解决方法.文献对地图学中常见的3种类型数据的集成和检索进行了详细阐述.可见此部分应更多地结合数据所涉及到的专业问题的特点来分析,需要特殊处理对策,不可一概而论。而遗传算法是一种基于生物进化论和分子遗传学的全局随机搜索算法。

在金融数据挖掘中,数据的累积比较丰富,易云东等对非线性相关分析法进行了改进,给出了高阶非线性相关的分析方法。如果进一步考虑对相关数据的全局相关性,也可以应用于数据预处理。此外,金融挖掘中数据的重要性的的排序只需简单地用全局度量指标的大小进行。

(4)数据变换

数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据,消除它们在时间、空间、属性及精度等特征表现方面的差异。这类方法虽然对原始数据都有一定的损害,但其结果往往具有更大的实用性。常用的规范化方法除了最小-最大规范化、Z-score规范化(零均值规范化)、小数定标规范化外,还可以应用主成分分析方法计算模型中的数据变换矩阵,由此可以建立起通用的数据变换维数消减模型。应用实例表明,通过数据变换可用相当少的变量来捕获原始数据的最大变化。具体采用哪种变换方法应根据涉及的相关数据的属性特点而定,根据研究目的可把定性问题定量化。也可把定量问题定性化。

(5)数据归约

文献使用SAS中称为Pr0CLogisti。的过程可以对侮个变量进行单变量的逻辑回归达到压缩数据的目的.文献通过对高维数据集合的研究,提出了两类维数消减方法:其中一种是从有关变量中消除无关、弱相关或冗余的维,寻找一个变量子集来构建模型,即子集选择法.而对诸如粗糙集这种无法处理连续属性值的数据挖掘方法,需对数据中包含的连续属性取值进行离散化,可利用概念层次树,将数据泛化到更高的层次,从而可以帮助有效减少地学习过程所涉及的输入、输出操作。

《来源科技文献,经本人整理,以技术会友,广交天下朋友》

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349

推荐阅读更多精彩内容

  • 大数据预处理 数据预处理 由于所要进行分析的数据量的迅速膨胀(已达G或T数量级),同时由于各种原因导致了现实世界数...
    石显阅读 1,157评论 0 0
  • 小波降噪的必要性 信号在测量或传输过程中,会难免遇到噪声或干扰,其中噪声主要指的是自然发生的,干扰是指人为因素所导...
    石显阅读 123评论 0 0
  • 基于Apriori算法的关联规则分析模型 基于Apriori算法的关联规则分析模型 5.3.1基于Apriori算...
    石显阅读 456评论 0 0
  • 桥梁振动信号的预处理 桥梁振动信号是指布设在桥梁各处的传感器,将收集到各通道的信号经过放大器或变换器转化后,再由被...
    石显阅读 466评论 0 0
  • D71 proximity 20190427 1)翻译下面的句子: 天津虽然紧邻北京,但它的经济好像并未因此而获益...
    骑长颈鹿的猪阅读 147评论 0 0