数据探索练习题

1.从UCI学习库中取得一个数据集,并尽可能的多使用本章介绍的不同的可视化技术。文献注释和本书网站提供了可视化软件的线索。

2.至少指出使用颜色可视化提供信息的两个优点和缺点。

优点:颜色使视觉元素更容易可视化识别。举例:如果区分者将二维数据点中的三个簇用不同颜色标识,则更容易辨别。当然,数字使用颜色看起来也更有趣。

缺点:一些人是色盲将不方便区分带有颜色的数字。灰色字体的数字在某些情况下会展示更多的细节。颜色使用起来不容易,比如,一个糟糕的配色方案可以是花哨的,也可以把注意力集中在不重要的元素上。

3关于三维图形,安排问题是什么?

最好是把这更笼统地表述为“。。。问题是什么”,因为选择以及安排在显示三维情节方面起着关键作用。

三维图的关键问题是如何显示信息,使尽可能少的信息被掩盖。如果情节是二维表面,那么观点(viewpoint)的选择是至关重要的。然而,如果情节是电子形式的,那么有时可以交互改变观点,以获得表面的完整视图。对于三维实体,这种情况更具挑战性。通常,为了提供必要的信息,必须省略部分信息。例如,通常会显示三维对象的切片或横截面。在某些情况下,可以使用透明度。同样,能够以交互方式改变视觉元素的排列方式也是有帮助的。

4.讨论使用抽样来减少需要显示的数据对象个数的优缺点。简单随机抽样(无放回)是一种好的抽样方法码?为什么?

简单随机抽样并不是最好的方法,因为它会消除稀疏区域中的大多数点。最好对数据对象过于密集的区域进行欠采样,同时将大部分或所有数据对象保持在稀疏区域。

5.如何创建可视表示来显示描述如下系统的信息。

确保处理了以下问题。

表示。如何将对象、属性和联系映射到可视化元素?

安排。如何显示可视化元素,是否有需要考虑的特殊问题?具体的例子可能是视点的选择、透明度的使用、或将特定的对象组分开。

选择。如何处理大量属性和数据对象?

(a)计算机网络。确保包括网络的静态信息(如连接性)和动态性质(如通信量)。

网络的连接性最好用图表来表示,节点是路由器、网关或其他通信设备,而链路则表示连接。连接的带宽可以用链路的宽度来表示。颜色可用于显示链接和节点的使用百分比。

(b)在特定时间,特定的植物和动物种类在全世界的分布。

最简单的方法是在一张单独的世界地图上显示每一个物种,并对该物种出现的地区进行阴影处理。如果要同时显示几个物种,那么每个物种的图标都可以放在世界地图上。

(c)对于一组基准数据库程序,计算机资源(如处理时间、内存和磁盘)的使用情况。

每个程序的资源使用可以显示为三个数量的条形图。因为这三个量是不同的规模,一个适当的资源规模将是必要的,这样才能很好地工作。例如,资源使用率可以显示为总使用率的百分比。或者,我们可以使用三个条形图,一个用于资源使用类型。在每一个图上都会有一个条形图,其高度代表相应程序的使用情况。这种方法不需要任何扩展。另一种选择是显示每个程序的资源使用情况例如,资源使用率可以显示为总使用率的百分比。

(d)过去30年内,一个特定国家的工人职业变化。假定提供了每个人每年的信息,这提供了性别和文化程度。

对于每个性别,职业分类可以显示为一系列饼图,其中每行饼图表示特定的教育水平,每列表示特定的年份。为了方便起见,每栏之间的时间间隔可以是5年或10年。

或者,我们可以对职业进行排序,然后针对每个性别,计算每个职业的累计就业百分比。如果为每个性别绘制此数量,则连续两行之间的区域显示此职业的就业百分比。如果一种颜色与每个职业相关联,那么每一组线之间的区域也可以用与每个职业相关联的颜色来着色。显示相同信息的类似方法是使用一系列堆叠条形图。

6.相对于标准直方图,说出茎叶图的优点和缺点。

茎叶图显示值的实际分布。另一方面,对于大量的值,茎叶图变得相当笨拙。

7.如何处理直方图依赖于箱的个数和位置的问题?

最好的方法是使用核密度估计来估计数据的实际分布函数。数据分析的这一分支相对来说发展得很好,如果广泛可用,则更为合适,但简单的直方图方法是不够的。

8.描述盒状图如何提供属性值是否对称分布的信息。关于图3-11显示的属性的分布对称性,你有何种结论?

图3-11 鸢尾花属性的盒状图

如果表示数据中值的线在方框的中间,则数据是对称分布的,至少在第一和第三个四分位之间的75%的数据中是对称分布的。对于其余的数据,晶须和异常值的长度也是一个指示,尽管,由于这些特征不涉及那么多的点,它们可能是误导性的。

萼片的宽度和长度似乎相对对称地分布,花瓣的长度似乎有点偏斜,花瓣的宽度有点偏斜。

9.使用图3.12比较萼片长度、萼片宽度、花瓣长度和花瓣宽度。

图3-12 鸢尾花种类盒状图

For Setosa, sepal length > sepal width > petal length > petal width.

For Versicolour and Virginiica, sepal length > sepal width and petal length >petal width, but although sepal length > petal length, petal length > sepal width.

10.关于使用方框图探索具有四个属性的数据集的评论:年龄、体重、身高和收入。

通过查看(1)每个属性的方框图和(2)第二个属性的不同类别的特定属性的方框图,可以获得大量信息。例如,如果我们比较不同年龄类别的年龄方框图,我们会发现体重会随着年龄的增长而增加。

11.给出一个可能的解释,解释为什么大多数花瓣长度和宽度的值沿着图3.9中的对角线落在桶中。

图3-9鸢尾花数据集花瓣长度和花瓣宽度的二维直方图

如果这三种鸢尾可以根据它们的大小排序,如果花瓣的长度和宽度都与植物的大小和彼此相关的话,我们就可以期待这样的分布。

12.使用图3.14和3.15来标识花瓣宽度和花瓣长度属性共享的特征。

图3-14 4个鸢尾花属性的经验CDF
图3-15萼片长度、萼片宽度、花瓣长度和花瓣宽度的百分位数图

在经验CDF曲线和百分位图中,花瓣的长度和宽度都有一个相对平坦的区域。这表示这些属性具有相对统一值的一组花。

13.简单的线图,如第56页图2.12所示,显示两个时间序列,可用于有效地显示高维数据。例如,在图2-12中,很容易看出两个时间序列的频率是不同的。时间序列的哪些特征允许高维数据的有效可视化?

图2-12傅里叶变换应用:识别时间序列数据中的基本频率

属性值是有序的。

14.描述产生稀疏或密集数据立方体的情况类型。用书中使用的例子以外的例子来说明。

不太可能出现所有值组合的任何数据集都将生成稀疏的数据立方体。这将包括连续属性集,其中属性描述的对象集不占用整个数据空间,但只占其中的一小部分,以及离散属性,其中许多值的组合不会出现。

当基本属性类别的几乎所有组合都出现时,或者聚合级别足够高,使得所有组合都可能有值时,就会出现密集的数据立方体。例如,考虑一个包含交通事故类型及其位置和日期的数据集。原始的数据立方体是非常稀疏的,但是如果将其聚合为包含单个或多个车祸、事故状态和事故发生月份的类别,那么我们将得到一个密集的数据立方体。

15.如何扩展多维数据分析概念,使得目标变量可以是定性变量?换言之,何种汇总统计或数据可视化是令人感兴趣的?

值得关注的汇总统计数据是值或值组合(目标值和其他值)出现的频率。由此我们可以导出各种值之间的条件关系。反过来,这些关系可以使用类似于用于显示贝叶斯网络的图来显示。

16.从表3.1构造一个数据立方体。这是一个密集的还是稀疏的数据立方体?如果是稀疏的,则标识空的单元格。

数据立方体如表3.2所示。它是一个致密的立方体,只有两个单元格是空的。

17.讨论了基于聚合的降维与基于PCA、SVD等技术的降维的区别。

PCA或SVD的维数可以看作是数据在降维集合上的投影。在聚合中,维度组被组合在一起。在某些情况下,当天数聚合为月份或产品的销售按门店位置聚合时,聚合可视为规模的变化。相比之下,PCA和SVD提供的降维没有这样的解释。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,695评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,569评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,130评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,648评论 1 297
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,655评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,268评论 1 309
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,835评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,740评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,286评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,375评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,505评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,185评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,873评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,357评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,466评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,921评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,515评论 2 359

推荐阅读更多精彩内容

  • 第五课 - Pandas 入门 本课内容: *01. pandas DataFrame(数据框) *02. pan...
    进步小小青年阅读 787评论 0 5
  • 微信原文 前几天做了一个PCA的图,图是画出来了,但是问题有很多,比如说主成分是是啥意思,图里面的箭头有什么含义?...
    caokai001阅读 670评论 0 1
  • 今天我来给你讲讲Python的可视化技术。 如果你想要用Python进行数据分析,就需要在项目初期开始进行探索性的...
    妄心xyx阅读 37,770评论 2 67
  • 今天我来给你讲讲Python的可视化技术。 如果你想要用Python进行数据分析,就需要在项目初期开始进行探索性的...
    妄心xyx阅读 1,476评论 0 17
  • 10个数学核心概念 数学核心概念包括:数感、符号意识、空间观念、几何直观、数据分析观念、运算能力、推理能力、模型思...
    心像算术阅读 15,163评论 1 3