数据挖掘基本任务

  • 定义挖掘目标
  • 数据取样
  • 数据探索
  • 数据预处理
  • 挖掘建模*
  • 模型评价

平均水平的指标是对个体集中趋势的度量, 使用最广泛的是均值和中位数;反映变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分位间距。

  • 频率密度(频率与组距之比)
  • 定性变量:观测的个体只能归属于几种互不相容类别中的一种时,这样的观测数据。
  • 标准差度量数据偏离均值的程度
  • 变异系数 度量标准差相对于均值的离中趋势

CV=\frac{s}{x} *100%

  • 四分位数间距,是上四分位数Qu与下四分位数Ql之差,期间包含了全部观察值的一半。其值越大,说明数据的变异程度越大;反之,说明变异程度越小

数据预处理

数据清洗

缺失值处理

插值法:利用已知点建立合适的插值函数f(x),未知值由对应点xi求出的函数值f(xi)近似代替。

数据集成

  1. 实体识别
  2. 属性冗余

数据变换

对数据进行规范化处理,将数据转换成“适当的”形式,以适用于挖掘任务及算法的需要。

  1. 简单函数变换
  2. 属性构造
  3. 规范化
  4. 连续属性离散化:要求数据是分类属性形式。这样,常常需要将连续属性变换成分类属性,即连续属性离散化
    • 确定分类数以及如何将连续属性值映射到这些分类值。

数据规约

数据规约产生更小但保持数据完整性的新数据集。意义:

  1. 降低无效、错误数据对建模的影响,提高建模的准确性
  2. 少量且具代表性的数据将大幅缩减数据挖掘所需时间
  3. 降低存储数据的成本

挖掘建模

数据为数值型,需要对属性进行离散化(即人直观理解的表现形式)

分类与预测

神经网络模型

BP 神经网络

学习算法:&学习规则(误差校正学习算法)

误差校正学习算法根据神经网络的输出误差对神经元的连接强度进行校正,属于有指导学习。

目标函数(误差函数):神经网络训练是否完成的衡量。当误差函数小于某一个设定的值时即停止训练。二乘误差函数相似:
E=\sum\limits_{k=1}^{N}[Y_k - T_k]^2

分类与预测算法评估

聚类分析(聚类分析算法评估)

聚类分析:是在没有给定划分类别(没有给数据打标签),根据数据相似度进行样本分组的一种方法。(典型非监督学习算法)

目标是实现组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差别越大,聚类效果越好。

关联规则

目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。

Apriori算法

是一种挖掘频繁项集的算法.核心思想:通过连接产生候选项与其支持度,然后通过剪枝生成频繁项集。步骤(Ck是由Lk-1与L1连接产生的)

找最大K项频繁集

  1. 扫描集合C1中每一项数据的支持度。出现次数/所有事务个数。
  2. 对各项集的支持度与预先设定的最小支持度值比较保留大于等于的项得1项频繁集L1.
  3. 扫描所有事务,L1与L1连接得候选项C2,并计算每一项支持度。如P({a,b}).接下来是剪枝步,
  4. 对C2各项集的支持度与预先设定的最小支持度值比较,得2项频繁集L2.
  5. 接着扫描所有事务,L2与L1连接得C3,计算支持度。如p({a,b,c}).

由频繁集产生关联规则

置信度计算公式
Confidence(A=>B)=\frac{Support\_count(A并B)}{Support\_count(A)}
Support_count(A)包含项集A的事务数

时序模式

时间序列的预处理:(对它的纯随机性和平稳性进行校验)

纯随机序列又称白噪声序列,序列进行完全无序的随机波动,可以中止。

非平稳时间序列的分析方法分为:

  • 确定性因素分解的时序分析

把所有序列变化归结为(长期趋势、季节变动、循环变动和随机波动)

  • 随机时序分析

差分运算

  1. P阶差分

相距一期的两个序列值之间的减法运算称为1阶差分运算

  1. K步差分

相距K期的两个序列值之间的减法运算称为K步差分运算

白噪声检验(序列的单位根检验)输出的P值要小于0.05。

离群点检测

离群点的属性值明显偏离期望的或常见的属性值

它的任务是发现与大部分其他对象显著不同的对象。

几种数据规范化

零均值规范化 1.0*(data-data.mean())/data.std() (z-score规范化)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容

  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,936评论 6 13
  • “帮帮你?” 看着眼前这个美女一副快要死翘翘的模样,刘云帆不但没有任何怜香惜玉,反而眼神里有些鄙视。 不就是痛经吗...
    飄雲阅读 358评论 2 5
  • 一 十年前,我在上海松江区的一家生物制药厂上班,当时老板聘请了一位五十多岁的台湾人任...
    周大雄0323阅读 313评论 0 1
  • 记得小时候,每到这个季节,把姥爷的摇椅拉在院子里面,抱着半个西瓜用勺子挖着吃,一边吃一边抬头看星星,哼着小曲,姥爷...
    琼语阅读 172评论 0 0