数挖——探索数据

数据探索有助于选择合适的数据预处理和数据分析技术。

一、汇总统计

汇总统计是刻画数据特征的数值,汇总的特征包括频率、位置和散布等
例如:位置 – 均值(mean) 散布 – 标准差(standard deviation)
大部分的汇总统计可以通过顺序访问一次数据计算得到

频率和众数

属性值的频率(frequency)是具有该属性值的对象个数与数据集中所有对象的个数的百分比
属性的众数(mode)是具有最高频率的属性值

频率和众数一般用于分类属性

百分位数

对于有序的数据,百分位数(percentile)更有意义
定义:给定一个序数属性或连续属性 x 和一个0到100之间的整数 p, 第 p 个百分位数 xp是x 的一个值,使得 x 的 p% 的观测值小于xp

求第k个百分位数的方法:
n个数从小到大排序,求(n-1)×k%,整数部分i,小数部分j;
第k个百分位数=(1-j)×第(i+1)个数 + j×第(i+2)个数

位置: 均值和中位数

均值是连续属性值集最常用的位置度量,均值对离群点非常敏感!

截断均值:指定百分数p,丢弃高端和低端各(p/2)%的数据,再计算均值

中位数:

散布: 极差和方差

属性的极差(range)是连续属性最大值与最小值之间的差值(即最大散步)
方差(variance)和标准差(standard deviation)是连续属性值集的最常用的散步度量

但极差和方差对离群点仍然敏感,故常用其他估计

绝对平均偏差
中位数绝对偏差
四分位数极差

二、可视化

可视化需要将数据转换成可视的形式(图形或表格的形式),使得能够借此分析或报告数据的特征和数据对象或属性之间的关系

为什么数据可视化是强大的数据探索技术?
1、人们能够快速分析大量的可视化信息
2、能发现一般的模式和趋势
3、能发现离群点和异常模式

针对单个属性:一维直方图、盒状图
针对多个属性:二维直方图、散布图、矩阵图

  • 直方图(histogram)
    显示单个数值属性取值的分布,将可能的值分散到箱中,显示落入每个箱中的对象数,使用条形显示箱中对象的个数
  • 二维直方图:显示两个数值属性取值的联合分布
  • 盒状图(box plots):显示单个数值属性取值的分布(通过百分位数的位置)
  • 散布图(scatter plots )
    显示数据集中两三个属性之间的关系,结合类标号可以显示属性将类分开的程度
    属性值决定绘制点的位置,最通用二维散布图,有时也使用三维散布图
    通常,其他属性可以使用点标记的大小、形状和颜色等表示
    可以使用散布图阵列汇总多对属性的关系
鸢尾花属性的散布图阵列
  • 矩阵图(matrix plots)
    显示(高维的)数据矩阵(或相似矩阵),
     若不同的属性具有不同的值域,则可对属性标准化
    ——防止具有最大量值的属性在视觉上左右图形
     若类标号已知,则重新排列数据矩阵的次序,使同类的所有对象在一起
    ——使得容易检查一个类的所有对象是否在某些属性上具有相似的属性值
     若类标号已知,对相似矩阵的行列排序,使得同类的所有对象在一起
    ——可以目视评估每个类的内聚性,与其他类的分离性
鸢尾花数据集的数据矩阵图
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容

  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,975评论 6 13
  • [TOC] 探索数据 内容:汇总统计、可视化和联机分析处理(OLAP) 作用:数据初步探究,利于选择合适的数据预处...
    hyfine阅读 703评论 0 2
  • 本文您将要了解: 1、数据由什么类型的属性或字段组成? 2、每个属性具有何种类型的数据值? 3、哪些属性是离散的?...
    Mickey_Q阅读 3,046评论 0 0
  • 感赏彩羽的课桌抽屉整齐,得到了同学家长的赞扬。 感赏彩羽做数学能够勤思考, 感赏彩羽的英语课文都会背诵。 投射彩羽...
    无心言欢阅读 194评论 0 0
  • 被选上参加希望之星英语演讲比赛啦 thats all my talk.thank u very much for ...
    艺艺艺va阅读 79评论 0 0