高质量的数据可视化方法

这是一个正在持续更新的笔记,目的是记录数据可视化示例和技术,这些示例和技术可能与COVID-19病毒相关,也可能不是。

1 地理空间和地图相关

由于冠状病毒大流行的很大一部分是“何处”,地理可视化技术经常被新闻机构和研究人员使用。有很多选项可供选择,每个选项都有其优缺点,具体取决于用例和可视化数据。

1.1 Bubble Map

“气泡图”,有时也被称为“刻度符号图”或“比例符号图”,是一种专题地图,它按圆形或其他形状的半径成比例地编码定量值。较小的圆表示较低的值,而较大的圆表示较高的值。圆心是与该值相关联的位置,例如城市的纬度坐标或州或县的地理中心。

气泡图可以作为变量映射地图的一种方便的替代方案,因为它们不需要政治边界来可视化数据。然而,当大量气泡相互重叠时,它们可能更难阅读。

下面的气泡图示例摘自《纽约时报》的文章《美国的冠状病毒:最新地图和病例计数》,其中显示了COVID-19数据每天更新。

气泡图

1.2 Choropleth Map

变量映射地图是一种专题地图,它将一个值编码到一个地理区域单位,如国家、州、县或普查区。脉络网可以用来描绘一个地理区域的变化,允许出现空间趋势。

变量映射地图的缺点:

* 数据在空间上聚集,因此可能掩盖较小地理单位的趋势。例如,州脊索者将掩盖县级的值,而县脊索者将掩盖普查区域或邮政编码级别的值。

根据颜色用于编码值的方式,数据中的模式可能会被隐藏。弦面贴图通常使用分类方案来限制用于简化地图阅读和图形比较的颜色数量。根据分类方案,数据中的模式可能是可见的,也可能不可见。

* 非专业人士通常会错误地将地理区域的大小与基准值关联,例如,较大的区域可能与较高值关联,较小区域尽管颜色较低。因此,建议将等面积地图投影用于弦面图,以减少区域畸变。

* 弦斑贴图要求所示的值被规范化。价值观不应显示准确的统计数字,例如人口数量,而应以比率或比率显示,例如每平方英里的人口数量,以便在不同规模的地理单位之间进行公平比较。

尽管变量映射地图有缺点,但它通常是一个很好的选择,因为它可以简化地理空间上的数据比较。此外,许多公共人口统计数据(如美国人口普查数据)可在与变量映射地图兼容或适用的地理单位(如州、县和人口普查区)获得。启用缩放和平移交互有助于处理不同大小的地理单元,例如国家地图上城市地区的较小县。

下面的变量映射地图示例摘自纽约时报的文章《美国的冠状病毒:最新图谱和病例计数》,其中显示了每天更新的COVID-19数据。

变量映射地图

1.3 Bivariate Choropleth Map

双变量映射地图(Bivariate Choropleth Map)。在绘制地图时,我们常常使用单一变量进行映射处理,相较于单一变量映射地图,此类地图表达的信息更加丰富和全面。该类地图可以很好的在地图上用颜色展示两个变量的信息,这种展示的结果可以很好表现我们研究的特征(如收入、房价等)的变化情况,如下图:

双变量映射是变量映射的另一个变体,它允许同时显示两个变量。这是通过使用两个调色板来实现的,这两个调色板以产生第三个调色板的方式混合在一起。在下面的例子中,右下角的图例显示了一个调色板,表示每平方公里的人口数,另一个调色板表示没有互联网接入的人口百分比。当两个变量的值都增加时,两个选项板混合形成第三个选项板。这允许在地理上显示这两个变量的数量。

双变量映射地图的缺点主要是它们可能更难被观众解读。它们要求观看者更多地参考图例来解码地图中感兴趣区域的颜色。这个问题可以通过交互性得到部分解决,例如在地图上悬停或单击时的工具提示和弹出窗口。

这个例子来自 Household Internet Access by Population Density 。见其他双变量映射地图的例子请查看 precisionforcovid.org 网站

双变量映射地图

1.4 Choropleth Map, Multiple Categories

这张地图展示了一种使用变量映射地图的技术,但是有多个变量或类别。通常这样一张地图可能只显示一个种族或民族,但在这张地图中,每个县都被COVID-19比率最高的种族或民族所着色。这项技术可以同时显示许多不同的种族。然而,缺点是使用的许多不同的调色板可能使地图更难阅读。

图片来源于《纽约时报》的报道,是对冠状病毒种族不平等的最全面的观察。

多变量映射地图

1.5 Dot Density Map

点密度图(也称为点分布图)使用一种技术,将点(小圆圈)放置在一个地理区域内,以表示出现的现象(例如人口中的人)。根据地图的不同,一个点可以表示一个现象的单个或多个实例,也可以表示一个实际位置,或者随机放置以模拟真实世界的密度。点密度图是显示地理密度的变量映射地图的替代品。

点密度图的缺点与点的放置方式有关,观众可能会误解点的位置。当随机放置点以模拟密度时,它们可能被解释为真实位置,因此应注意确保读者理解这些点是随机的。当圆点位置代表实际位置时,必须注意圆点的大小,以免误报位置。

下面的例子来自Aaron Williams的笔记本电脑种族人口点密度图,这张地图是根据华盛顿邮报的故事制作的,美国比以往任何时候都更加多样化,但仍然是种族隔离的。

点密度图

1.6 Hex Maps

六边形地理地图有两种常见的用例:

* 作为地图的替代品,地图应该“正确”地显示地理区域。

* 空间聚集

第一个用例缓解了上面提到的变量映射地图的问题,在这个问题中,观测者会错误地将土地面积与一个数值相关联。通过将各州抽象为大小一致的形状,如正方形或六边形,或这些形状的镶嵌(例如,选举地图将各州的选举团票数显示为单个形状),我们减少了观众将土地面积误解为价值的可能性,而事实上,衡量指标是其他指标,如失业率。另一个好处是,小州如罗德岛和较小的非州如华盛顿特区,波多黎各,关岛,维尔京群岛等变得更容易作出价值,甚至徘徊和点击。此外,在显示人口数据时,变量映射地图无法公平地表示种族。网格图(这类地图的另一个名称)有助于纠正这一点。

这种类型的地图的第二个用例,通常被称为“Hexbin地图”,使用一种称为空间分块的技术,其中数据被聚合为相同大小的地理单元。这些地理区域通常是任意形状,例如正方形、三角形或六边形,它们表示“地理空间箱”,并在地图区域中进行镶嵌。由于每个空间箱具有相同的大小,数据按面积标准化,这意味着可以为每个箱/形状描绘原始计数,以便在感兴趣的地理区域中进行公平和准确的比较。这项技术可以很好地解决大量点数据(纬度坐标)的可视化问题,以描述所有点的地理密度。

六边形地图的一个缺点是,由于形状是抽象的,不能代表“真实的”或熟悉的地理区域,观看者可能会被它们迷惑,通常是在行政级别小于州级别时。政策制定者和研究人员可能更愿意看到按“真实”和更精细的地理区域(如县、普查区或邮政编码制表区)在空间上聚合的数据,以便提供有意义的分析或建议政策变化。因此,在空间聚合点数据时,变量映射地图可能是更好的选择(这种类型的聚合可以使用GIS完成)。

下面的例子来自纽约市车辆密度,摘自本笔记本。

六边形地理地图

2 Charts

2.1 Line Chart

折线图是显示随时间变化的有效方法。可以使用多行来显示各种类别,以便进行比较。但是,太多的行/类别可能会使图表难以阅读,在这种情况下,使用小倍数可能是一种值得探索的技术。

折线图可以从交互式中受益,例如将鼠标悬停在图表的某个部分上并突出显示特定类别以帮助查看者关注特定的数据点时的工具提示。

折线图

2.2 Proportional Bar Charts

比例条形图表示给定变量内子类别的分布。例如,这可以是某一特定种族/民族在某一特定运动项目中的职业运动员所占的百分比,或某一特定州或县内每个年龄组所占总人口的百分比。与常规条形图不同的是,每个条形图的总面积跨越了图表的整个宽度(或高度)(取决于条形图是水平方向还是垂直方向),并且每个条形图的总面积被分割为其中按比例表示特定类别的条形图。

比例条形图

3 Other

3.1 Data Tables

数据表可以是向用户显示数据的有用视图,特别是当需要同时显示多个变量时。大多数读者通常熟悉表的概念,可能比图表和地图等数据可视化类型更熟悉。如果网页提供了这样的功能,表也可以作为预览数据下载的一种方式。拥有诸如按列标题排序或纯文本搜索输入之类的特性会使数据表更加可用和有用。数据表可以扩充其他图表类型,特别是当它们与之“同步”时。例如,与数据表配对的地理地图可以根据用户平移和缩放时在地图上显示的内容更新表上显示的行。

越来越多的数据表在其单元格中增加了“小图表”,如星火线、条形图,甚至是图像(如下面国家名称旁边的国旗图标)。这种技术为数据表带来了一个有用的可视化元素,使它们在实用性上与小倍数相似。

数据表的缺点可能是它们试图一次显示太多的信息。例如,如果存在许多列,则可能需要水平滚动数据表的区域,这通常不是一个好方法。同样地,对于许多行数据,尽管这可以通过使用分页来解决。

数据表

4 Techniques

以下是可以与图表和地理地图结合使用的技术,以更有效地传达冠状病毒对人群影响的见解。

4.1 Animation

动画可以是一种有效的方式来传达随着时间的变化。当使用动画时,应该使用滑块UI或其他类型的界面来允许清除时间段,以便用户查看特定的时间点或范围。如果动画“播放”,那么应该有一个UI元素允许播放或暂停动画。

动画

4.2 Coordinated Views

协调视图是一种允许一个图表上的交互来更新另一个图表或一组图表上显示的值的技术。这允许用户以可视化方式过滤、聚合、分解和搜索数据。这种技术经常用于交互式数据可视化仪表板。在更复杂的用例中,它甚至可以允许对数据进行多维交叉过滤。

协调视图

4.3 Small Multiples

小倍数图是一种使用相同指标但针对不同类别重复单一图表类型的方法。通常,这些图表的尺寸很小,放得很近,以便比较和对比。这通常比在同一图表上绘制多种类型的类别更有效,并且可以与其他技术相结合,例如有意使用颜色来传达数据中的见解。

下面的例子来自ACLU在COVID-19期间的死亡率,我们可以看到COVID-19对有色人种造成的损失比我们所知道的还要严重

小倍数图
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容