数据可视化词汇表

你好!这个笔记本是一个与数据可视化相关的所有术语的词汇表,当然也会有来自其他领域的交叉词汇,这些词汇并不完全与数据可视化相关。建议使用此笔记本的方法是使用浏览器的内置搜索工具(ctrl/cmd+F),如果您看到错误或缺少信息,请提供帮助。为了便于其他人贡献,每个单词都创建为一个单元格,没有脚本/逻辑,只有标记。

Arc Diagrams 弧线图

是表示二维网络图的另一种方法。在弧图中,节点沿一条直线(一维轴)放置,弧用于显示这些节点之间的连接。每个弧线的厚度可以用来表示源节点和目标节点之间的频率。弧线图有助于发现数据中的共生现象。

Arc Diagrams

Area Graphs 面积图

是线条图,但线条下的区域用某种颜色或纹理填充。面积图的绘制方法是:首先在笛卡尔坐标网格上绘制数据点,在点之间连接一条线,最后填充完成线下方的空间。与折线图一样,面积图用于显示一段时间或一段时间内定量值的发展。它们最常用于显示趋势,而不是传达特定的价值观。面积图的两种常见变体是:分组面积图和堆积面积图。分组面积图从同一个零轴开始,而堆叠面积图的每个数据系列都从上一个数据系列留下的点开始。

Area Graphs

Bar Graph 条形图

或柱状图:经典的条形图使用水平或垂直的条形图(柱状图)来显示不同类别之间的离散数值比较。图表的一个轴显示正在比较的特定类别,另一个轴表示离散值标度。条形图与柱状图不同,因为它们不显示一段时间内的连续发展。条形图的离散数据是分类数据,因此回答了“有多少?”在每个类别中。条形图的一个主要缺陷是,当有大量的条形图时,标签就成了问题。

Bar Graph

Box and Whisker Plot (or Box Plot) 盒须图

是一种通过其四分位数从方框中平行延伸的线被称为“晶须”,用于表示上下四分位数之外的变化。离群值有时被绘制成与晶须成一条直线的单个点。方框图可以垂直或垂直绘制水平。尽管与直方图或密度图相比,方框图可能看起来很原始,它们的优点是占用较少的空间,这在比较多个组或数据集之间的分布时很有用。

Box and Whisker Plot

Braided graph 编织图

一种新的可视化技术,我们称之为编织图,其中填充区域按照时间轴上每个位置的深度顺序进行排序。

Braided graph

Bubble Chart 气泡图

是一个多变量图,是散点图和比例面积图的交叉。与散点图类似,气泡图使用笛卡尔坐标系沿网格绘制点,其中X轴和Y轴是单独的变量。然而。与散点图不同,每个点都指定了一个标签或类别(显示在图例旁边或图例上)。然后,每个绘制点以其圆的面积表示第三个变量。颜色也可以用来区分类别或用来表示一个额外的数据变量。时间可以通过将其作为一个轴上的变量来显示,也可以通过设置数据变量随时间变化的动画来显示。气泡图通常用于比较和显示分类圆之间的关系,通过使用定位和比例。气泡图的全貌可用于分析模式/相关性。

Bubble Chart

Bubble Maps 气泡地图

在数据地图上,圆圈显示在指定的地理区域上,圆圈的面积与其在数据集中的值成比例。气泡图可以很好地比较地理区域的比例,而不受区域大小的影响,如choropeth地图所示。不过,气泡图的一个主要缺陷是,过大的气泡可能会与地图上的其他气泡和区域重叠,因此需要对此加以说明。

Bubble Maps

Bullet Graphs 项目符号图

功能类似于条形图,但伴随着额外的视觉元素,以便在更多的上下文中打包。最初,项目符号图是由stephenriw开发的,作为仪表板仪表和仪表的替代品。这是因为它们通常显示的信息不够,空间效率较低,而且“图表垃圾”杂乱无章。主数据值由图表中间主条的长度编码,称为特征度量。垂直于图形方向的线标记称为比较度量,用作与特征度量值进行比较的目标标记。因此,如果主栏通过了比较度量的位置,你就知道你已经达到了目标。特征度量后面的分段彩色条用于显示定性范围分数。每个颜色阴影(上例中的三个灰色阴影)用于指定性能范围评级。比如说,穷人,普通人和伟人。使用项目符号图时,最好将范围的最大数目保持在5个。

Bullet Graphs

Candlestick Chart 烛台图

(又称日本烛台图)被用作一种交易工具,以直观地显示和分析证券、衍生品、货币、股票、债券、商品等的价格随时间的变化。尽管烛台图中使用的符号类似于方框图,但它们的功能不同,因此不能相互混淆。烛台图通过使用类似烛台的符号来显示开盘价、收盘价、最高价和最低价等多位价格信息。每个符号表示单个时间段(一分钟、一小时、一天、一个月等)的压缩交易活动。每个烛台符号沿x轴上的时间刻度绘制,以显示一段时间内的交易活动。

Candlestick Chart

Cardinality 基数

维度中元素的数量(最初在一个集合中)。例如,性别是基数较低的维度,坐标是基数较高的维度。

Cartesian product 笛卡尔积

(源于集合论)所有可能的二维值的组合。例如,几何平面由可由2个坐标轴(因此为二维或笛卡尔坐标系)表示的点组成。或者我们有两个低基数的维度,我们可以用笛卡尔积,来创建一个维度。例如,我们有关于人口性别(男性、女性、非二元)和年龄的数据,使用年龄分类(>=50,<50)和笛卡尔积,我们可以用6个值获得一个维度。

Categorization 分类

当处理基数较高(高于需要)的维度时,可以通过分组项来降低基数。例如,您可以创建两个类别来代替为所有年龄值构建图表:大于或等于50岁,小于50岁。

Charts 图表

包括图形、绘图和一些图表,重点是可映射到笛卡尔坐标的定量数据。

Charts

Chord diagram 弦图

这种图将实体之间的相互关系可视化。实体之间的连接用于显示它们共享一些共同点。这使得弦图非常适合于比较数据集中或不同数据组之间的相似性。节点沿圆排列,点之间的关系通过使用圆弧或Bézier曲线相互连接。将值指定给每个连接,该连接由每个弧的大小按比例表示。颜色可以用来将数据分成不同的类别,这有助于进行比较和区分组。当显示的连接太多时,和弦图会出现过度混乱的问题。

Chord diagram

Choropleth Maps 乔洛普莱斯地图

显示与数据变量相关的彩色、阴影或图案划分的地理区域或区域。这提供了一种可视化地理区域上的值的方法,可以显示显示位置上的变化或模式。数据变量使用颜色级数在地图的每个区域中表示自己。通常,这可以是从一种颜色到另一种颜色的混合、单一色调的渐变、透明到不透明、从亮到暗或整个光谱。使用颜色的一个缺点是你不能准确地读取或比较地图上的数值。另一个问题是,较大的区域比较小的区域显得更加突出,因此观察者对阴影值的感知受到影响。制作乔洛佩斯地图时的一个常见错误是对原始数据值(例如人口)进行编码,而不是使用标准化值(例如计算每平方公里人口数)来生成密度地图。

Choropleth Maps

Circle Packing 圆形填料

(又称圆树形图)是树形图的变体,它使用圆而不是矩形。每个圆中的包含表示层次结构中的一个级别:树的每个分支表示为一个圆,其子分支表示为其中的圆。每个圆的面积也可以用来表示附加的任意值,例如数量或文件大小。颜色也可用于分配类别或通过不同的色调表示另一个变量。

Circle Packing

Clustering 聚类

聚类技术试图将点集收集并分类为“足够相似”或“接近”的组。“近距离”取决于您选择如何测量距离。问题空间中添加的特征越多,复杂性就越高。

Connection Maps 连接图

(又称连接图或射线图)连接图是用直线或曲线将连接点放在地图上绘制的。虽然连接图非常适合在地理上显示连接和关系,但它们也可以用于通过单个链接链显示地图路线。连接图还可以通过连接的分布或连接在地图上的集中程度来显示空间模式。

Connection Maps

Continuous, discrete 连续,离散

维度是连续的,如果它可以无限地分成更小的部分,通常只适用于柏拉图的思想。例如,空间和时间被认为是连续的。在实践中,所有由人类进行的测量和我们可以存储在计算机中的信息都是离散的,因为它受到测量工具精度的限制。所以当我们在计算机中处理连续维时,我们实际上是在处理离散近似(通常具有高基数)。

Comparable, uncomparable 可比,不可比

数字维度是可比较的,因为数字可以比较,因此可以排序。但也有一些特性是无法弥补的——你不能说一件比另一件更大(更亮、更重等)。例如,性别是一个无法弥补的方面。你可以按字母顺序对性别进行排序,但没有意义,而且在另一种语言中,排序可以改变。

Coordinate system 坐标系

一个或多个维度的组合。例如,笛卡尔坐标系(用于简单绘图)、极坐标系、地理坐标系(经纬度)等。

Coordinate system

Correlation 相关性

是一组值对另一组值的依赖程度的度量。如果值一起增加,则它们正相关。如果一组中的一个值随着另一个值的减小而增大,则它们是负相关的。当一组中的变化与另一组中的变化无关时,就没有相关性。

Data Exploration 数据探索

数据科学过程的一部分,科学家将提出一些基本问题,帮助她理解数据集的上下文。你在探索阶段学到的东西将指导以后更深入的分析。此外,它有助于你认识到什么时候结果可能令人惊讶,并需要进一步调查。

Data Mining 数据挖掘

从一组数据中提取可操作的洞察力并将其充分利用的过程。这包括从清理和组织数据到分析数据以找到有意义的模式和联系,再到以一种有助于决策者改进产品或组织的方式来交流这些联系的一切。

Data Pipelines 数据管道

以一系列方式传递数据的脚本或函数的集合。第一种方法的输出成为第二种方法的输入。这将一直持续到数据被适当地清理和转换,以用于团队正在处理的任何任务。

Data Wrangling 数据争用

(又名Munging)以原始形式获取数据并“驯服”它直到它在更广泛的工作流或项目中更好地工作的过程。驯化意味着使值与更大的数据集保持一致,替换或删除可能影响以后的分析或性能的值,等等。

Decision Trees 决策树

这种机器学习方法使用一系列关于给定数据集的分支问题或观察来预测目标值。随着数据集的增长,它们往往会过度拟合模型大的。随机的森林是一种决策树算法,旨在减少过度拟合。

Decision Trees

Density Plots 密度图

(亦称核密度图,密度跟踪图)显示连续时间间隔或时间段内数据的分布。这个图表是直方图的一个变体,它使用核平滑来绘制值,允许通过平滑噪声来实现更平滑的分布。密度图的峰值有助于显示区间内值的集中位置。与直方图相比,密度图的一个优势是,它们更能确定分布形状,因为它们不受所用箱子数量(典型直方图中使用的每个条形图)的影响。一个只有4个箱子的直方图不会像20个箱子的直方图那样产生足够清晰的分布形状。但是,对于密度图,这不是一个问题。

Density Plots

Donut chart 甜甜圈图表

基本上是一个饼图,中间有一个区域被切掉了。饼图有时会被批评,因为它把读者的注意力集中在各片之间以及整个图表的比例区域上。这使得查看切片之间的差异变得很困难,尤其是当您尝试将多个饼图放在一起进行比较时。油炸圈饼图在某种程度上解决了这个问题,它不强调区域的使用。相反,读者更关注于阅读弧的长度,而不是比较切片之间的比例。而且,甜甜圈图表比饼图更具空间效率,因为甜甜圈图表内部的空白空间可以用来显示里面的信息。

Donut chart

Dot Maps 点地图

(又称点地图、点分布图、点密度图)点地图是通过在地理区域上放置大小相等的点来检测地理区域上的空间模式或数据分布的一种方法。有两种类型的点图:一对一(一个点表示单个计数或对象)和一对多(一个点表示特定单位,例如1个点=10棵树)。点地图是观察事物在一个地理区域内分布情况的理想工具,当点在地图上聚集时,它可以显示模式。点地图很容易掌握,并且更善于提供数据的概述,但是对于检索精确的值不是很好。

Dot Maps

Dot Matrix Charts 点阵图

以点为单位显示离散的数据,每个点的颜色表示一个特定的类别,并在矩阵中组合在一起。它们用于快速概述数据集中每个类别的分布和比例,还用于比较其他数据集中的分布和比例,以便发现模式。当数据集中只使用一个变量/类别,且所有点的颜色相同时,可以使用点阵图来主要显示比例。

Dot Matrix Charts

Dimension 尺寸

参数,特征。轴,在几何体、平面、绘图等列的上下文中,在关系数据库管理系统(RDBMS)和联机分析处理(OLAP)的上下文中。例如,年龄、性别、身高、肤色、坐标、时间等。

Error Bars 误差线

作为图形增强功能,在笛卡尔图上显示绘制数据的可变性。误差线可应用于散点图、点图、条形图或折线图等图形,以提供所呈现数据的附加详细信息层。误差线有助于指示估计的误差或不确定度,从而给出测量精度的一般感觉。这是通过使用在原始图形及其数据点上绘制的标记来实现的。通常,误差条用于显示范围数据集中的标准偏差、标准误差、置信区间或最小值和最大值。

Error Bars

ETL

(提取、转换、加载)这个过程是数据仓库的关键。它描述了将来自多个地方的数据以原始形式呈现到屏幕上以供分析的三个阶段。ETL系统通常由数据工程师提供给我们,并在后台运行。

Flow chart 流程图

(亦称流程图、流程图、流程图、流程图、流程模型、工作流程图)这类图用于显示流程的顺序步骤。流程图用一系列相连的符号描绘出一个过程,这使得这个过程易于理解,并有助于与其他人进行交流。流程图有助于解释复杂和/或抽象的过程、系统、概念或算法是如何工作的。绘制流程图也有助于规划和开发流程或改进现有流程。符号被划分并标准化为不同的类型,每种类型都有其特定的形状。每个步骤的标签都写在符号形状的内部。流程图以一个弯曲的矩形开始和结束,表示流程的开始和结束。线条或箭头用于显示流程中从一个步骤到另一个步骤的流动方向。简单的指令或动作用矩形表示。而菱形则是在需要决策时使用的。流程图中还可以使用许多其他符号。流程图可以水平或垂直运行。

Flow chart

Flow Maps 流程图

地理上显示信息或物体从一个位置到另一个位置的移动及其数量。流程图通常用于显示人、动物和产品的迁移数据。单个流线的偏移量或偏移量由其厚度表示。这有助于显示迁移在地理上是如何分布的。流程图是从一个原点绘制的,并从其“流线”分支出来。箭头可以用来显示方向,或者如果移动是传入或传出的。画不带箭头的流线可以用来表示来回的交易。合并/捆绑流线并避免交叉可以帮助减少地图上的视觉混乱。

Flow Maps

Gantt chart 甘特图

甘特图通常用作项目管理的组织工具,它显示一系列活动(或任务)及其持续时间,显示每个活动的开始和结束时间。这使得甘特图对于计划和估计整个项目可能需要多长时间非常有用。您还可以看到哪些活动彼此并行运行。甘特图在表中绘制:行用于活动,列用作时间刻度。每个活动的持续时间由沿此时间刻度绘制的条形图长度表示。条形图的开始是活动的开始,条形图的结束是活动应该完成的时间。色标条可用于将活动分组。为了显示一项活动的完成百分比,可以部分地填充一个条形图,用不同的阴影或使用不同的颜色,以区分已完成的工作和剩余的工作。连接箭头可用于显示哪些任务相互依赖。关键路径,完成项目所需的关键活动也可以用一系列突出显示的箭头显示。也可以在甘特图中放置符号来表示里程碑,并使用贯穿图表的垂直线来突出显示当前日期。

Gantt chart

Geographical chart 地理图

是一种可视化技术,专门用于按位置、地址或地理坐标(经纬度)显示数据。它允许您检测数据中的地理模式,并解释数据背后的驱动因素。数据通常使用地理地图表示。

Graph 图

由线连接的点的网络(数学术语)。在数据可视化中,我们讨论的是数学术语的可视化表示。图形的主要思想是显示元素之间的关系。在这个意义上,它与其他主要目的是显示维度之间关系的可视化没有区别。

Graph

Heatmaps 热图

通过颜色变化可视化数据。当应用于表格格式时,热图有助于交叉检查多变量数据,方法是在行和列中放置变量,并对表格中的单元格着色。热图有助于显示多个变量之间的差异,揭示任何模式,显示任何变量是否彼此相似,以及检测它们之间是否存在任何相关性。通常,所有行都是一个类别(标签显示在左侧或右侧),所有列都是另一个类别(标签显示在顶部或底部)。单独的行和列被划分为子类别,这些子类别在矩阵中相互匹配。表中包含的单元格要么包含彩色编码的分类数据,要么包含基于色阶的数字数据。单元格中包含的数据基于连接行和列中两个变量之间的关系。

Heatmaps

Histogram 直方图

可视化数据在连续间隔或特定时间段内的分布。直方图中的每个条表示每个间隔/箱的列表频率。直方图有助于估计值的集中位置、极端值以及是否存在任何差距或异常值。它们对于粗略地观察概率分布也很有用。

Histogram

Jump plot 跳转图

允许对序列事件数据进行可伸缩的图形化,并具有多种变体,以成功地可视化工作流的性能。

Jump plot

Kagi charts 卡吉图表

通过一系列线模式来可视化价格行为,用于显示特定资产的总体供求水平。Kagi图表与时间无关,有助于滤除其他金融图表(如烛台图表)上可能出现的噪音。这是为了更清楚地显示重要的价格变动。识别卡吉图中出现的模式是理解它们的关键。虽然Kagi图表确实在其x轴上显示日期或时间,但这些实际上是关键价格行动日期的标记,不属于时间刻度的一部分。右侧的y轴用作值刻度。

Kagi charts

Line Graphs 折线图

用于显示连续间隔或时间段内的定量值。线形图最常用于显示趋势和分析数据随时间的变化。首先在笛卡尔坐标网格上绘制数据点,然后在所有这些点之间连接一条线来绘制线图。通常,y轴具有定量值,而x轴是时间刻度或间隔序列。负值可以显示在x轴下方。图中线条的方向可以很好地比喻数据:向上的坡度表示值增加的位置,向下的坡度表示值减少的位置。这条线在图形中的行程可以创建显示数据集中趋势的模式。当与其他行(其他数据系列)分组时,可以将各个行相互比较。但是,避免在每个图表中使用超过3-4行的内容,因为这会使图表更加混乱,更难阅读。解决这个问题的方法是将图表分成更小的倍数(每个数据系列有一个小的折线图)。

Line Graphs

LOESS 局部加权散点图

局部加权散点图平滑是在散点图中绘制回归趋势线的一种方法。顾名思义,它使用周围的点为每个X值计算Y值,从而绘制一条线。你可能认为它是一个加权移动平均线类似于移动平均线。

Marimekko Charts 马里梅科图表

(又称马赛克图)用于将一对变量上的分类数据可视化。在Marimekko图表中,两个轴都有一个百分比刻度,它决定了每个线段的宽度和高度。所以Marimekko图表是一种双向100%堆积条形图。这使得可以通过两个轴检测类别及其子类别之间的关系。Marimekko图表的主要缺点是很难阅读,特别是当有很多段的时候。而且,很难准确地对每个片段进行比较,因为它们并非都沿着一个共同的基线排列在一起。因此,Marimekko图表更适合于提供更全面的数据概述。

Marimekko Charts

Mean 中庸

(又称平均值、期望值)给我们一组数字的“典型”值感觉的一种计算方法。平均值是一个值列表的总和除以该列表中的值数。它可以被自己欺骗,在实践中,我们使用其他统计值的平均值来获得关于我们数据的直觉。

Median 中间带

在按顺序列出的一组值中,中值是中间值。我们经常使用中位数和平均值来判断集合中是否存在异常高或异常低的值。这是探索异常值的早期提示。

Mind map 思维导图

是一个图表,用于将相关的想法、词语、图像和概念映射到一起。头脑风暴也是一种工具和方法,用于产生想法、发现关联、对想法进行分类、组织信息、可视化结构和学习的一般辅助工具。头脑风暴通常用于项目的初始阶段,并作为一种记笔记的形式。他们也可以在协作工作和团队建设的士气有用。思维导图的结构如下:主要范畴从中心节点向外延伸。较小的类别作为子类别从主要类别中分支出来,子类别也可以发展自己的相关子类别。

Mind map

Moving average 移动平均线

是一种绘制平滑趋势线的方法,该方法通过对导致X值(包括X值)的n个点的Y值求平均值来计算每个X值的Y值。例如,在时间线中,50天移动平均线计算尾部50点(天)的平均值,并使用该值绘制趋势线。

Moving average

Multi-set Bar Charts 多组条形图

(即分组条形图或分组条形图)是两个或多个数据系列并排绘制并分组在同一轴上的类别下时使用的条形图的变体。与条形图一样,每个条形图的长度用于显示类别之间的离散数值比较。每个数据系列被分配一个单独的颜色或同一颜色的不同阴影,以便区分它们。然后将每组钢筋彼此隔开。多组条形图的使用通常是将分组变量或类别与具有相同变量或类别类型的其他组进行比较。多组条形图也可用于相互比较小直方图,因此组中的每个条形图将表示变量的有效间隔。多组条形图的缺点是,一组中的条形图越多,阅读起来就越困难。

Multi-set Bar Charts

Network diagram 网络图

(又称网络图、网络图、节点链接图)这种可视化显示了事物是如何通过使用节点/顶点和链接线来表示它们的连接而相互关联的,并有助于说明一组实体之间的关系类型。通常,节点绘制为小点或圆,但也可以使用图标。链接通常显示为节点之间连接的简单线。然而,在某些网络图中,并非所有的节点和链接都是平等创建的:例如,通过使节点大小或链接笔划权重与赋值成比例,可以可视化其他变量。通过映射出连接的系统,网络图可以通过查找节点的任何群集、节点连接的密集程度或通过图布局的安排来解释网络的结构。网络图的两种显著类型是“无向”和“定向”。无向网络图仅显示实体之间的连接,而有向网络图通过小箭头显示连接是单向的还是双向的。网络图的数据容量有限,当节点过多且类似“毛球”时,就开始变得难以阅读。

Network diagram

Nightingale Rose Chart 夜莺玫瑰图

(又名Coxcomb图,极地图)这张图是著名的统计学家和医学改革家弗洛伦斯·南丁格尔(Florence nantingale)用来传达克里米亚战争期间士兵可避免的死亡。南丁格尔玫瑰图绘制在极坐标网格上。在这个径向图上,数据中的每个类别或区间被划分为相等的段。每个线段从极轴中心延伸的距离取决于它所表示的值。因此,从极坐标网格中心开始的每个环都可以用作标度来绘制线段大小,并表示更高的值。因此,重要的是要注意到,在夜莺玫瑰图中,代表其价值的是面积,而不是线段的半径。南丁格尔玫瑰图的主要缺陷是,由于其较大的面积,外部部分被给予了更多的重视。这不成比例地代表了价值的增加。

Nightingale Rose Chart

Non-ribbon Chord Diagram 非带状弦图

是弦图的精简版本,仅显示节点和连接线。这将更加强调数据中的连接。

Non-ribbon Chord Diagram

Normalize 正常化

当所有的值都被调整到一个共同的范围内时,一组数据被称为标准化的。我们规范化数据集,使比较更容易和更有意义。例如,从一堆不同的网站上获取电影的收视率,并对其进行调整,使其在0到100的范围内下降。

NULL 空

表示该值未知或未指定。在数据库中,空值表示缺少值,通常与指定的空(空)值不同。从CSV文件加载数据时,有时无法判断值是否丢失或仅为空。因此,在数据分析中,我们经常把空值和空值视为同一个类别。

OHLC chart

(开盘-高点-低点-收盘图)通常用于说明金融工具(如股票)价格随时间的变化。图表上的每一条垂直线显示一个单位时间内的价格范围(最高和最低价格),例如一天或一小时。从每一条线的两边打勾,左边是开盘价,右边是该时间段的收盘价。如果股票收盘走高,条形图显示为绿色;如果股票收盘走低,条形图显示为红色;如果股票价格不变,条形图显示为灰色。

OHLC chart

Outlier 离群值

反常现象在某一特定群体、阶级或类别中不典型的人或事物。这个术语应用于数据而不是可视化,但是我们可以在图上分别标记异常值。

Overplotting 过涂

当数据可视化中的数据或标签重叠时,很难在数据可视化中看到单个数据点。当数据集中存在大量数据点和/或少量唯一值时,通常会发生过度绘制

Overplotting

Parallel Coordinates Plot 平行坐标图

这种类型的可视化用于绘制多变量数值数据。平行坐标图是比较多个变量并观察它们之间关系的理想方法。例如,如果您必须比较一系列具有相同属性的产品(比较不同型号的计算机或汽车规格)。在平行坐标图中,每个变量都有自己的轴,所有轴都平行放置。每个轴可以有不同的标度,因为每个变量使用不同的测量单位,或者可以对所有轴进行归一化以保持所有标度的一致性。将值绘制为一系列跨所有轴连接的线。这意味着每条线是放置在每个轴上的点的集合,这些点都连接在一起。轴的排列顺序会影响读者理解数据的方式。其中一个原因是相邻变量之间的关系比非相邻变量更容易理解。因此,对轴进行重新排序有助于发现变量之间的模式或相关性。平行坐标图的缺点是,当数据非常密集时,它们会变得过于杂乱,因此难以辨认。解决这个问题的最好方法是通过互动和一种称为“刷”的技术。刷亮显示选定的线或线集合,同时淡出所有其他线。这允许您在过滤噪声的同时隔离感兴趣的绘图部分。

Parallel Coordinates Plot

Parallel Set charts 平行集合图

在显示流量和比例的方式上与Sankey图表类似。但是,平行集合不使用箭头,它们在每个显示的线集合处划分流路径。每个行集对应一个维度/数据集,它的值/类别在该行集中的每一行中表示。每条线的宽度以及由此产生的流动路径由类别总数的比例分数决定。每个流道都可以着色,以显示和比较不同类别之间的分布。

Parallel Set charts

Pictogram Charts 象形图

(亦称象形图、象形图、象形单位图、图画图)使用图标来提供一个更具吸引力的小离散数据集的整体视图。通常,图标代表数据的主题或类别,例如,人口数据将使用人的图标。每个图标可以表示一个单位或任意数量的单位(例如,每个图标表示10个)。数据集在图标的列或行中并排比较,以便将每个类别相互比较。

Pictogram Charts

Pie charts 饼图

饼图广泛应用于演示文稿和办公室,通过将一个圆分成比例段,帮助显示类别之间的比例和百分比。每个弧长代表每个类别的一个比例,而整圈代表所有数据的总和,等于100%。饼图非常适合让读者快速了解数据的比例分布。

Pie charts

Piled bar chart 堆积条形图

一种分层条形图设计,其中所有条形图在一个共享轴上进行排序和对齐。

Piled bar chart

Pivot 枢轴

是一种表格数据表示法,其中数据按一个或多个类别汇总。这些类别的标签排列在顶部或底部,表格中填充了与这些类别相对应的合计数值计算,如总和、平均值或计数。数据透视表可以很容易地查看高级聚合视图,并将其按不同类别进行分解,以了解数据背后的驱动因素并进行比较。

Point & Figure Charts 点和图形图表

(也称为P&F图表)该图表通过一系列由X和O组成的列来显示特定资产的供求关系。点图图表与时间无关,主要关注资产的过滤价格行为。点和图图表不绘制交易量,其目的是表明任何供需关系的变化,这被称为“突破”。点和图形图表也可以更容易地检测支持和阻力水平,以及任何可能存在的趋势线。识别点图图表中出现的模式是利用它们的关键。虽然点和图形图表确实在其x轴上显示日期或时间,但这些实际上是关键价格行动日期的标记,不属于时间刻度的一部分。y轴用作值刻度。X代表价格上涨,需求超过供给(更多买家),Os代表价格下跌,供给超过需求(更多卖家)。

Point & Figure Charts

Population Pyramid 人口金字塔

是一对背对背的柱状图(针对每种性别),显示了人口在所有年龄组和两性中的分布。X轴用于绘制人口数量,Y轴列出所有年龄群体。人口金字塔是探测种群模式变化或差异的理想场所。多人口金字塔可用于比较不同国家或选定人口群体的模式。人口金字塔的形状可以用来解释人口。例如,一个底部很宽,顶部很窄的金字塔表明人口的生育率和死亡率都很高。然而,上半部较宽、底部较窄的金字塔则意味着人口老龄化,生育率较低。

Population Pyramid

Projection 投影

是在不同维度系统中表示一种维度系统的方法(变换)。例如,在二维空间中有表示三维空间的方法,如多视图投影、轴测投影;在地图上有表示地球表面的方法,如墨卡托投影等。投影会导致某种信息丢失(如轴测投影)或失真(如墨卡托投影)。

Projection

Proportional Area Charts 比例面积图

非常适合于比较值和显示比例(大小、数量等),以便快速、全面地查看数据的相对大小,而无需使用比例尺。这个图表的缺点是很难用比例面积图来估计值。这意味着它们几乎只用于交流,而不是用于分析一。成比例面积图通常使用正方形或圆形。但是,可以使用任何形状,只要使用形状的区域来表示数据。面积图的一个常见技术错误是使用一个长度来确定形状的大小,而实际上需要计算形状内部的空间来确定其大小。否则,你会导致指数增加和减少。

Proportional Area Charts

Radar charts 雷达图

(又称蜘蛛图、网图、极坐标图、星图)是比较多个定量变量的一种方法。这使得它们有助于查看哪些变量具有相似的值,或者每个变量之间是否存在任何异常值。雷达图还可用于查看数据集中哪些变量得分高或低,使其成为显示的理想工具表演。每个变量具有从中心开始的轴。所有轴呈放射状排列,彼此之间的距离相等,同时保持所有轴之间的比例相同。从一个轴到另一个轴连接的网格线通常用作向导。每个变量值沿其单独的轴和数据集中的所有变量绘制,并连接在一起形成一个多边形。

Radar charts

Radial Column Chart 径向柱形图

(也称为圆柱图或星形图)这种图形使用同心圆网格绘制条形图。图上的每个圆表示一个刻度上的值,而径向分隔符(从中心延伸的线)用于每个类别或间隔(如果是直方图)。通常,刻度上较低的值从中心开始,随着每个圆的增大而增大。但是,负值也可以显示在径向柱形图上,方法是从任何一个外圆(从中心圆开始)开始取零,其中的所有圆都用作负值。横杆通常从中心开始向外延伸,但是可以用可变的起点来显示范围,就像在跨度图中一样。条形图的堆叠方式与堆叠条形图的堆叠方式相同。

Radial Column Chart

Radial/Circular Bar Chart 径向/圆形条形图

简单地说,它是在极坐标系上绘制的条形图,而不是在笛卡尔坐标系上绘制的。虽然看起来很酷,但径向条形图的问题是条形长度可能会被误解。外部的每一个条到最后一个条都相对较长,即使它们代表相同的值。这是因为每根杆的半径不同,所以每根杆都是根据其角度来判断的。我们的视觉系统更善于解释直线,因此笛卡尔条形图是比较数值的更好选择。因此,径向条形图主要是为了美观。

Radial/Circular Bar Char

Sankey Diagrams 三基图

按比例显示流及其数量。箭头或线条的宽度用来表示它们的大小,因此箭头越大,流量就越大。流程箭头或流程线可以组合在一起,也可以在流程的每个阶段通过它们的路径拆分。颜色可以用来将图表划分为不同的类别,或显示从一种状态到另一种状态的转换。通常,Sankey图用于直观地显示能量、金钱或材料的转移,但也可以用于显示任何孤立系统过程的流程。

Sankey Diagrams

Sample 样品

是我们可以访问的数据点的集合。我们用这个样本来推断更多的人口。例如,一项政治民调对1000名希腊公民进行抽样调查,以推断整个希腊的意见。

Scale 比例尺

是原始坐标相对于给定绘图显示大小的参考。例如,地图中使用的线性比例或数量变化很大时使用的对数比例,但我们对大小数量的细节感兴趣。

Scale

Scatterplots 散点图

(也称散点图、点图、X-Y图、散点图或散点图)使用笛卡尔坐标放置的点集合来显示两个变量的值。通过在每个轴上显示一个变量,可以检测两个变量之间是否存在关系或相关性。通过散点图上显示的模式可以解释各种类型的相关性。它们是:正值(值一起增加)、负值(一个值随着另一个值的增加而减少)、空值(无相关性)、线性、指数和U形。相关性的强度可以通过图上各点之间的紧密程度来确定。最终远离一般点簇的点称为异常值。

Scatterplots

Span chart 跨度图

(又称范围条形图/柱状图、浮动条形图、差分图、高低图)用于显示最小值和最大值之间的数据集范围的图表。跨度图是比较范围的理想方法,通常用于分类范围。跨度图只把读者的注意力集中在极值上,而没有给出最小值和最大值之间的值或平均值或数据分布的信息。

Span chart

Spike histograms 尖峰直方图

通常使用100或200个箱子。当不同数据值的数量低于指定的存储箱数量时,我只对所有不同数据值进行频率列表,只有当两个值非常接近时才进行舍入。当数据中没有联系时,尖峰直方图近似减少为地毯图。

Spike histograms

Spiral plot 螺旋图

这种可视化方法沿着阿基米德螺旋绘制基于时间的数据。图表从螺旋的中心开始,然后向外延伸。缓和曲线图用途广泛,可以使用沿缓和曲线路径显示的条、线或点。螺旋图是显示大数据集的理想方法,通常用于显示大时间段内的趋势。这使得螺旋图非常适合显示周期性模式。颜色可以分配给每个时期,以打破他们,并允许在每个时期之间进行一些比较。例如,如果我们要显示一年的数据,我们可以为图表上的每个月指定一种颜色。

Spiral plot

Stacked Area Graphs 堆积面积图

与简单面积图的工作方式相同,只是使用多个数据系列,从上一个数据系列留下的点开始计算每个点。整个图形表示所有绘制数据的总和。堆积面积图也使用面积来表示整数,因此它们不适用于负值。总的来说,它们对于比较一段时间内变化的多个变量很有用。

Stacked Area Graphs

Stacked Bar Graph 堆积条形图

与并排显示其条形图的多集条形图不同,堆叠条形图分割其条形图。堆积条形图用于显示如何将较大的类别划分为较小的类别,以及每个部分与总量的关系。堆叠条形图有两种类型:(a)简单堆叠条形图将线段的每个值放置在前一个值之后。条形图的总值是所有线段值的总和。非常适合比较各组/分段条形图的总量。(b) 100%堆叠条形图显示每组整体的百分比,并按每个值占每组总量的百分比绘制。这使得更容易看到每组中数量之间的相对差异。注:一个主要堆积条形图的缺点是,每个条形图的线段越多,它们就越难读取。另外,比较每个片段是困难的,因为它们没有在一个共同的基线上对齐。

Stacked Bar Graph

Standard deviation 标准差

对一组值的定义有助于我们理解这些值是如何分布的。这个统计量比方差更有用,因为它用与值本身相同的单位表示。从数学上讲,标准差是一组方差的平方根。它通常用希腊符号sigma,σ来表示。

Statistical Significance 统计显著性

当我们判断它可能不是偶然发生的时候,结果在统计学上是有意义的。它被广泛应用于调查和统计研究中,但并不总是具有实用价值。

Stem and Leaf Plot 茎叶图

(又名Stemplot,Stem&Leaf Display)是一种通过位置值来组织数据以显示数据分布的方法。Place值在“stem”列中向下升序显示,通常但不总是以十为单位。每个place值中的数据都会列出来,并作为一个“叶子”从中横向扩展。

Stem and Leaf Plot

Stream Graph 流图

(又名Themerier)这种可视化是叠加面积图的一种变体,但流图的值不是针对固定的直轴绘制,而是围绕变化的中心基线移动。流图通过使用流动的有机形状显示不同类别数据随时间的变化,这些形状有点像河流。这使得流图更美观,更吸引人看。在流图中,每个单独流形状的大小与每个类别中的值成比例。流图与之平行的轴,用于时间刻度。颜色既可以用来区分每一个类别,也可以通过改变色光来直观地显示每一个类别的附加定量值。

Stream Graph

Summary statistics 汇总统计

是我们用来以一种简单的方式传达关于我们数据的见解的方法。摘要统计的例子有平均值、中位数和标准差。

Sunburst Diagram 太阳爆发图

(又称日暴图、环形图、多层饼图、带状图、放射状树状图)这种类型的可视化通过一系列环形显示层次结构,这些环形为每个类别节点进行切片。每个环对应于层次结构中的一个级别,中心圆表示根节点,层次结构从根节点向外移动。环将根据它们与父切片的层次关系进行切片和划分。每个切片的角度要么在其父节点下等分,要么与某个值成比例。颜色可以用来突出层次分组或特定类别。

Sunburst Diagram

Tables 表

或者交叉表以双轴矩阵的形式呈现数据,通常以电子表格的形式表示。

Tally Chart 理货图

是使用理货标记数字系统记录和以图形方式显示数据分布频率的工具。在构建理货图表时,类别、值或间隔被放置在一个轴或列中(通常是Y轴或左侧的第一列)。每次出现一个值时,都会在图表的相应列或行中添加一个计数标记。收集完所有数据后,计数将被累加,并在下一列或下一行中显示总数。

Tally Chart

Time series 时间序列

当出现每个数据点时,按顺序排列的一组数据。想想一个月的股市价格,或者一天的气温。

Timeline chart 时间线图

是一种专门处理时态数据的可视化技术,有助于发现趋势。它通过将日期/时间放在横轴上,其他变量放在纵轴上,来显示一段时间内的数据。时间线图提供了各种数据表示,包括可以以相同比例或不同销售额或任何组合显示的线条和条形图,以突出显示变化,并便于比较。时间轴图表的主要特征是时间维度在水平轴上是线性的,从左到右,允许滚动和缩放以聚焦特定的时间段。

Timeline chart

Timeline 时间线

是一种按时间顺序显示事件列表的图形方式。一些时间表是按比例工作的,而另一些只是按顺序显示事件。时间线的主要功能是传递与时间相关的信息,用于分析或直观地呈现一个故事或历史视图。如果是基于尺度的,则时间线允许您通过允许查看器评估事件之间的时间间隔来查看事件何时发生或将要发生。这允许查看者查看任何选定时间段内出现的任何模式,或事件在该时间段内的分布情况。其他形式的数据可视化可以与时间线相结合,以显示定量数据是如何随时间变化的。例如,跨度图的条形图可以用来显示事件的持续时间。下面是一篇博客文章,展示了时间线组合的列表。

Timetables 时间表

用作计划事件、任务和操作的引用和管理工具。将数据与表格按时间顺序和/或字母顺序组织,有助于用户更快地进行引用。时刻表通常用来显示火车和其他交通工具的到达和离开时间。

Tree Diagram 树形图

是一种在树状结构中直观地表示层次结构的方法。通常,树形图的结构由根节点、没有上级/父级的成员等元素组成。然后是节点,这些节点通过称为分支的线连接连接连接在一起,表示成员之间的关系和连接。最后,叶节点(或结束节点)是没有子节点或子节点的成员。

Tree Diagram

Treemaps 树状图

是可视化树形图层次结构的另一种方法,同时通过面积大小显示每个类别的数量。每个类别都指定了一个矩形区域,其子类别矩形嵌套在其中。将数量指定给类别时,其面积大小将与该数量以及零件与整体关系中同一父类别内的其他数量成比例显示。此外,父类别的面积大小是其子类别的总和。如果没有数量分配给子类别,那么它的面积将在父类别内的其他子类别中平均分配。矩形被分割和排列成子矩形的方式取决于所使用的平铺算法。许多平铺算法已经被开发出来,但“squarified算法”使每个矩形尽可能保持正方形是一个常用的。BenShneiderman最初开发了Treemaps,作为一种在计算机上可视化大量文件目录的方法,而不占用屏幕上太多的空间。这使得Treemaps成为显示层次结构的一个更紧凑、更节省空间的选项,它提供了结构的快速概述。树形图也很擅长通过面积大小来比较类别之间的比例。树形图的缺点是它不能像其他可视化层次数据的图表(如树形图或日暴图)那样清晰地显示层次层次。

Treemaps

Trellis 格子

网格图显示一系列使用相同比例和轴的子图表。

Trellis

Venn Diagram 维恩图

(又称集合图)是一种直观地显示集合之间所有可能的逻辑关系的图。每组通常用一个圆表示。每个集合中都包含一组对象或实体,它们都有共同点。当集合重叠时,称为相交区域。这就是具有重叠集所有特性的实体所在的位置。

Venn Diagram

Violin Plot 小提琴情节

用于可视化数据的分布及其概率密度。这个图表是长方体图和密度图的组合,旋转并放置在每一侧,以显示数据的分布形状。中间的白点是中间值,中间粗黑条代表四分位间距。从中延伸出来的细黑线表示数据中的上(max)和下(min)相邻值。有时图形标记会从这段代码的末尾被剪裁线框绘图在显示数据时受到限制,因为其直观的简单性往往会隐藏有关数据中值如何分布的重要细节。例如,使用方框图,无法查看分布是双峰分布还是多峰分布。虽然小提琴图显示更多的信息,但它们可能比长方体图更吵。

Violin Plot

Wordcloud 文字云

(又称标记云)是一种可视化方法,通过使每个单词的大小与其频率成比例,来显示单词在给定文本体中出现的频率。所有的单词都被排列成一簇或一堆单词。或者,单词也可以以任何格式排列:水平线、列或形状内。词云也可以用来显示分配了元数据的词。例如,在一个包含世界上所有国家名称的词云中,可以将人口分配给每个名称以确定其大小。用在词云上的颜色通常是没有意义的,主要是审美的,但它可以用来分类词或显示另一个数据变量。通常,网站或博客上使用词云来描述关键字或标记的使用。词云也可以用来比较两个不同的正文在一起。

Wordcloud

Wrapped bar chart 包装条形图

条形图的增强版,允许同时查看的值的数量显著增加。

Wrapped bar chart

Xenographics 异种图形

新的数据可视化在野外出现。奇怪但(有时)有用的图表

Xenographics

XY chart XY图表

是专门研究数值变量之间关系的可视化。数据以图形形式显示,其中点是基于数据中的两个变量(两个字段或计算)绘制的。这两个变量分别映射到X轴和Y轴。气泡图是一种特殊的XY图,其中第三个变量是通过根据第三个变量的值改变点(气泡)的面积来表示的。类别数据也可以通过改变点(标记)的颜色或形状来表示。

XY chart
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容

  • 今天感恩节哎,感谢一直在我身边的亲朋好友。感恩相遇!感恩不离不弃。 中午开了第一次的党会,身份的转变要...
    迷月闪星情阅读 10,559评论 0 11
  • 彩排完,天已黑
    刘凯书法阅读 4,199评论 1 3
  • 表情是什么,我认为表情就是表现出来的情绪。表情可以传达很多信息。高兴了当然就笑了,难过就哭了。两者是相互影响密不可...
    Persistenc_6aea阅读 124,515评论 2 7