散点图scatter简介

2022-06-03

MATLAB例子:

eg1: 注:这里原例子中c=linspace(1,10,length(x)); 感觉这个应该在(0,1)范围内。难道是我理解错误?
https://ww2.mathworks.cn/help/matlab/ref/scatter.html#btrli6o-1_1

x = linspace(0,3*pi,200);
y = cos(x) + rand(1,200);
c = linspace(0,1,length(x));
scatter(x,y,[],c)
image.png

eg2:

theta = linspace(0,1,500);
x = exp(theta).*sin(100*theta);
y = exp(theta).*cos(100*theta);
s = scatter(x,y);

image.png

eg3:极坐标下的散点图 (此函数在R2016b中才发布)
https://ww2.mathworks.cn/help/matlab/ref/polarscatter.html?s_tid=doc_ta
image.png

th = linspace(0,360,50);
r = 0.005*th/10;
th_radians = deg2rad(th);
polarscatter(th_radians,r)

以下内容对于理解为什么使用散点图有重要价值。讲述全面。

以下的介绍来自:
https://chartio.com/learn/charts/what-is-a-scatter-plot/
## 什么是散点图?

散点图(又名散点图,散点图)使用点来表示两个不同数值变量的值。水平和垂直轴上每个点的位置表示单个数据点的值。散点图用于观察变量之间的关系。

image.png

上面的示例散点图显示了虚构树木样本的直径和高度。每个点代表一棵树;每个点的水平位置表示树的直径(以厘米为单位),垂直位置表示树的高度(以米为单位)。从图中,我们可以看到一棵树的直径与其高度之间通常存在紧密的正相关关系。我们还可以观察到一个异常点,即一棵直径比其他树大得多的树。这棵树的周长似乎相当短,这可能需要进一步调查。

## 何时应该使用散点图

散点图的主要用途是观察和显示两个数值变量之间的关系。散点图中的点不仅报告了单个数据点的值,而且还报告了将数据作为一个整体时的模式。

相关关系的识别在散点图中很常见。在这些情况下,我们想知道,如果给定一个特定的水平值,那么对于垂直值的预测是怎样的。您经常会看到水平轴上的变量表示自变量,而垂直轴上的变量表示因变量。变量之间的关系可以用多种方式描述:正或负、强或弱、线性或非线性。

image.png

散点图也可用于识别数据中的其他模式。我们可以根据点集聚集在一起的紧密程度将数据点分组。散点图还可以显示数据中是否存在任何意外差距以及是否存在异常点。如果我们想将数据分割成不同的部分,这可能很有用,比如在用户角色的开发中。

image.png

### 数据结构示例

直径 高度
4.20 3.14
5.55 3.87
3.33 2.84
6.91 4.34

为了创建散点图,我们需要从数据表中选择两列,一个用于绘图的每个维度。表格的每一行将成为图中的一个点,其位置根据列值。

## 使用散点图时的常见问题 #### 过度绘图

当我们有很多数据点要绘制时,这可能会遇到过度绘制的问题。过度绘图是数据点重叠到我们难以看到点和变量之间关系的程度的情况。当其中许多数据点位于一个小区域时,很难判断数据点的密集程度。

有一些常见的方法可以缓解这个问题。一种替代方法是仅对数据点的一个子集进行采样:随机选择的点仍应给出完整数据中模式的一般概念。我们还可以更改点的形式,增加透明度以使重叠可见,或减小点的大小以减少重叠的发生。作为第三种选择,我们甚至可以选择不同的图表类型,例如heatmap,其中颜色表示每个 bin 中的点数。此用例中的热图也称为二维直方图。

image.png

#### 将相关性解释为因果关系

这不是创建散点图的问题,而是其解释的问题。仅仅因为我们在散点图中观察到两个变量之间的关系,并不意味着一个变量的变化会导致另一个变量的变化。这引起了统计中的一个常见短语,即相关性并不意味着因果关系。观察到的关系可能是由影响两个绘制变量的第三个变量驱动的,因果关系可能颠倒了,或者模式只是巧合。

例如,查看城市统计数据以了解他们拥有的绿地数量和犯罪数量并得出结论是其中一个导致另一个是错误的,这可以忽略这样一个事实,即人口更多的大城市往往拥有更多两者,并且它们只是通过那个和其他因素相关联。如果需要建立因果关系,则需要进行进一步分析以控制或解释其他潜在变量的影响,以排除其他可能的解释。

## 常用散点图选项 #### 添加趋势线

当散点图用于查看变量之间的预测或相关关系时,通常会在图中添加一条趋势线,以显示数学上与数据的最佳拟合。这可以提供一个额外的信号,说明两个变量之间的关系有多强,以及是否有任何不寻常的点影响趋势线的计算。


image.png

#### 分类第三变量

基本散点图的一个常见修改是添加第三个变量。第三个变量的值可以通过修改点的绘制方式进行编码。对于指示分类值(如地理区域或性别)的第三个变量,最常见的编码是通过点颜色。给每个点一个不同的色调可以很容易地显示每个点对相应组的成员身份。

image.png

<figcaption style="box-sizing: border-box; display: block; margin: 1rem 0px; font-size: 0.8em; color: rgb(153, 153, 153);">树类型的着色点显示 Fersons(黄色)通常比 Miltons(蓝色)更宽,但对于相同的直径也更短。</figcaption>

有时在第三变量编码中看到的另一种选择是形状。形状的一个潜在问题是,不同的形状可能具有不同的大小和表面积,这可能会影响群体的感知方式。但是,在某些无法使用颜色的情况下(例如在印刷中),形状可能是区分组的最佳选择。

[图片上传失败...(image-412f2c-1654268987201)]

<figcaption style="box-sizing: border-box; display: block; margin: 1rem 0px; font-size: 0.8em; color: rgb(153, 153, 153);">上面的形状已按比例缩放以使用相同数量的墨水。</figcaption>

#### 数字第三个变量

对于具有数值的第三个变量,常见的编码来自于改变点的大小。基于第三个变量的点大小的散点图实际上有一个不同的名称,即气泡图。较大的点表示较高的值。可以在其自己的文章中阅读有关如何构建气泡图的更详细讨论。

image.png

作为另一种选择,色调也可用于描述数值。我们希望使用连续的颜色序列,而不是像分类情况那样对点使用不同的颜色,例如,较深的颜色表示较高的值。请注意,对于尺寸和颜色,图例对于解释第三个变量很重要,因为我们的眼睛不太能够像位置一样容易地辨别尺寸和颜色。

image.png

image.png

#### 使用注释和颜色突出显示

如果您想使用散点图来展示见解,最好通过使用注释和颜色来突出显示特定的兴趣点。去饱和不重要的点使剩余点突出,并为比较剩余点提供参考。

image.png

### 相关地块 #### 散点图

当散点图中的两个变量是地理坐标 - 纬度和经度 - 我们可以将这些点叠加在地图上以获得散点图(也称为点图)。当地理环境有助于绘制特定的见解并且可以与其他第三变量编码(如点大小和颜色)结合使用时,这会很方便。

[图片上传失败...(image-ac514e-1654268987201)]

<figcaption style="box-sizing: border-box; display: block; margin: 1rem 0px; font-size: 0.8em; color: rgb(153, 153, 153);">散点图的一个著名例子是约翰·斯诺 1854 年的霍乱爆发地图,显示霍乱病例(黑条)集中在 Broad Street 上的一个特定水泵(中心点)周围。原文:维基共享资源</figcaption>

热图

如上所述,当需要绘制大量数据点并且它们的密度会导致过度绘制问题时,热图可以成为散点图的一个很好的替代方案但是,当一个或两个变量不连续且不是数字时,热图也可以以类似的方式用于显示变量之间的关系。如果我们尝试用散点图描绘离散值,则单个级别的所有点都将在一条直线上。热图可以通过将值合并为计数框来克服这种过度绘图。

image.png

#### 连通散点图

如果我们要添加到散点图中的第三个变量指示时间戳,那么我们可以选择的一种图表类型是连接散点图。我们没有修改点的形式来指示日期,而是使用线段按顺序连接观察结果。这可以更容易地了解这两个主要变量如何不仅相互关联,而且这种关系如何随时间变化。如果横轴也对应时间,那么所有的线段都会从左到右一致地连接点,我们就有了一个基本的折线图

image.png

## 可视化工具

散点图是一种基本图表类型,应该可以通过任何可视化工具或解决方案创建。计算基本线性趋势线也是一种相当常见的选择,根据第三个分类变量的水平着色点也是如此。然而,其他选项,如非线性趋势线和按形状编码第三变量值,并不常见。然而,即使没有这些选项,当您需要调查数据中数值变量之间的关系时,散点图也是一种有价值的图表类型。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容