最近在做项目的时候,我常常被各种繁杂的数据所困扰。我经常遇到的一个难题就是,数据我们已经拿到了,那么我到底该用这些数据做一个什么样的数据图呢?
我以前的思维模式很简单,拿到数据后我就开始用所学过的各种图形模式去套用原始数据,所以画出来的草图也是千篇一律。然而,在看过那么多优秀的数据新闻作品过后,我意识到,我这样这样的思维模式实在是过于朴素,且难以契合整篇作品的情感。这样的思维模式更适合去做一篇清晰明了的数据报告,而不是简单易懂又具有洞察力的数据新闻。
对自己的思维模式进行反思以后,我又回到了对自己心灵最原始的拷问:所以我到底该做一个什么样的图?后来,我引进了“奥卡姆剃须刀”式的思考方式,把数据和图形的关键要点提取出来思考——即第一,提取出整个数据的所有属性;第二,简短概括整个数据的相关性;第三,把每个数据属性和图形属性用最契合的方式一一配对;第四,加入一些“艺术创作”元素,增加与文章的契合度。
这一段话看起来好像比较晦涩,但其实并不难。我接下来开始介绍这种思维模式的各种细节。
第一,什么是数据属性?
数据属性,也是数据的特征。在数据新闻领域中,我大概归纳了数据普遍具有哪些属性:
1、自变量分类:各类时间、各类对象(如各类人物、社会阶层、地理位置)等;
2、因变量趋势:增加、减少、波动等。
第二,什么是数据的相关性?
数据相关性是指数据之间存在某种关系,如正相关,负相关。从统计学角度看,变量之间的关系大体可分两种类型:函数关系和相关关系。
第三,什么是图形属性?
我们打开tableau,会发现它为我们展现了许多图形属性。但这些还不够。在数据新闻领域中,我归纳了以下图形属性:
1、颜色;2、大小(半径);3、角度;4、长短(宽高);5、面积;6、形状;7、位置(排列);8、路径;9、时间轴(or阅读时的等待时间);10、欢迎补充。
第四,什么是“艺术创作”元素?
即找到与主题最相契合度的元素(最重要的新闻点),且不能强行视觉化(即为了做出美丽的图表而赋予数据属性一些毫无意义的图形属性)。由于艺术创作元素过于多元,我将在下文结合几个例子来整体体验一下我归纳的整套思维模式和“艺术创作”元素。
案例一:
《香港的天气正变得更热,更极端》(How Hong Kong's weather is getting hotter and more extreme)
网页链接:
https://multimedia.scmp.com/news/hong-kong/article/extreme-weather/index.html?src=moreGraphics
首先,不要立马被这副惊艳的数据图给震撼到叫出声来。让我们来根据我所提出的思维方式,找出“我到底该做一个什么样的图?”这个问题的答案。
第一,提取出整个数据的所有属性。
自变量:1970年到2017年的每年、每年中的12个月份。
因变量:能源消耗排放量、气温、每年气温的极限温差
第二,简短概括整个数据的相关性。
从1970年到2017年,每一年中每一个月份的温度相对于上一年的相应月份都有所变化,且该变化和能源排放量有关。其总体变化趋势为能源消耗排放量不断上升、气温不断上升、全年极限温差不断变大。
第三,把每个数据属性和图形属性用最契合的方式一一配对。
自变量(1970年到2017年)——长度
自变量(每个月份)——位置(横向排列)
因变量(能源消耗排放量)——粗细(宽度)
因变量(气温)——颜色
因变量(全年最大温差)——圆圈半径
第四,加入“艺术创作”元素,增加契合度。
1、颜色运用:“黄和蓝”对应“热与冷”,符合我们的认知常识,更易理解。
2、长度时间轴设计——(1)在不枯燥的前提下拉长文章,调整读者阅读速度,控制阅读节奏
(2)在版面上有更多空间加入某些特殊值的tips
3、线条粗细设计:契合能源排放量——易让人联想到排气管的粗细,更加直观。
至此,我就分析完了从数据到数据图的整个过程。这样思考是不是更加简单高效呢?
案例二:
《印度强奸案》(Rape in India)
网页链接:
https://adityajain15.github.io/Rape_In_India/
我们还是按照我所提到的思维模式来审视这个作品。不过这次,我们试着从一些基本情况中自行提取信息。
基本情况(可供参考的信息):
2016年,印度共有所有173,608起强奸罪行记录在案,这些罪行要么向警方报告,要么被警方待定,要么被司法部门待定,只有极少部分能够完成定罪。报告的强奸犯罪的全国定罪率只有25.5%。定罪率偏低的一个重要因素是证据收集和处理不当。
一旦一个案件被警方指控并送交审判, 就可能在法院系统中煎熬几十年。强奸案件在法院面临令人难以置信的积压, 2016年提交审判的新案件 (33 628 起) 多于同年法院处理的案件数量 (18 792 起)。这一艰巨的过程只会增加受害者的创伤, 她经常在自己家人或被告的压力下屈服, 变得充满敌意。克服所有这些障碍仍然不能保证为受害者伸张正义。
(以上部分翻译自作品原文的部分节选)
接下来我们开始第一步,根据数据图表和基本情况来提取数据的所有属性:
自变量:173608起强奸案件
自变量:案情处理结果分类
因变量:各个处理结果的案情数量
我们提取完所有的数据属性了吗?看起来好像我们已经提取完了,但事实上并没有。我们从基本概述中还获得了一项重要的数据属性——即时间进程。时间进程在这个数据作品中是绝对不能忽略的,如果忽略掉它,我会自然而然地想到整个数据集强调的只是“比例”问题,由数据而衍生的数据图表可能只是一幅简单的环状图或者饼状图(最易于体现比例的图形模式)。所以加入时间进程后,我们能够得到的所有数据属性就是如下:
自变量:173608起强奸案件
自变量:案情处理结果分类
自变量:案情处理的时间进程
因变量:各个处理结果的案情数量
等会儿我会提到加入时间进程的好处,我们先来看第二步,简短概述整个数据的相关性:
我的概述是:2016年,印度共有所有173,608起强奸罪行记录在案。这些案情的审判由于各种原因而被层层阻挠,最终只有极少部分的能够完成定罪。
第三步,把每个数据属性和图形属性用最契合的方式一一配对:
自变量(173608起强奸案件)——形状(一一对应每个小点)
自变量(案情处理结果分类)——形状(方条)
自变量(时间进程)——位置(方条的摆放位置:时间节点越靠后,方条摆放越靠右)与时间轴(在这里即为“阅读时的等待时间”)
因变量(各个处理结果的案情数量)——位置(每个小点的位置变化)与长度(每个方条的长度)
第四步,加入“艺术创作”元素,增加契合度。
在基本情况的概述中,想必大家已经看出来整篇文章想要表达的东西。我之所以在第一步如此强调“时间进程”的重要性,是因为我想要体现我的概述中“层层阻挠”这个词的意义。这意味着在案情的处理过程中,每个案件都有一个艰巨的过程——煎熬、积压、障碍,这些情感元素正是通过时间进程(or审判进程)才能够给予读者直观体验的。
因此,总结这个作品的艺术创作契合度,我们不难发现:在颜色方面,艳红与全黑的配色,突出印度频发的“强奸”罪行的事态严峻与不可容忍;在时间进程与筛选设计方面,突出审判过程艰难、阻挠重重。
其他可供参考的案例:
《政府的烧烤大餐》(All the Government Barbecues)
网页链接:
https://vsueiro.github.io/data-stories/all-the-government-barbecues/en/
《一只愤怒的小鸟:过去十届美国总统就职演说的情绪弧线》(One Angry Bird Emotional arcs of the past ten U.S. presidential inaugural addresses)
网页链接:
https://emotions.periscopic.com/inauguration/
结语:
对于获奖作品中数据图,我们总是惊叹于其外表的惊艳,佩服于其内在的契合。当我们抓耳挠腮不知道如何把数据变成一副优秀的数据图时,不防丢弃掉所有扰乱你思绪的杂物,用一用文章中提到的思维方式,或许对你做数据图有些帮助。
Ps.还有些很有趣的案例没分析完,或许该系列还有下一期(没想到我也可以成为连载作者了呢嘻嘻)。
(by 段辉然)