空间数据可视化之spmap命令

本文作者:王玉婷,中南财经政法大学金融学院
文字编辑:崔赵雯
技术总编:余术玲

  各位小伙伴、大伙伴大家好,我爬虫俱乐部“张三丰”又回来啦~

ima_2.jpg

1. 导读

  大家应该还记得,前段时间我们揭了Sustainability的老底(《在Sustainability上发文最多的原来是这些高校》),整理了世界主要国家和地区的研究机构在Sus上发文的名单和数量。为了更直观地观察各国的发文情况,我发现了著名的空间数据可视化命令——spmap,作图效果如下图所示:

image

2. 语法及其简单应用

  spmap是一个外部命令,首先我们需要安装该命令:

ssc install spmap

  spmap的语法结构如下:
  spmap [attribute] [if] [in] using basemap [, ///
     basemap_options ///
     polygon(polygon_suboptions) ///
     line(line_suboptions) ///
     point(point_suboptions) ///
     diagram(diagram_suboptions) ///
     arrow(arrow_suboptions) ///
     label(label_suboptions) ///
     scalebar(scalebar_suboptions) ///
     graph_options]

  spmap的语法可以分为三层,spmap也是通过叠加这三个图层来实现绘图的。

  第一层:底层地图(basemap)。代表由多个子区域组合而成研究区域,如在世界地图中,各个国家和地区即为该地图的子区域。在Stata中,构造底层地图的数据集(countries_cor.dta)结构如下图所示:

image

  其中,_ID是标识变量,_X_Y是用于横、纵坐标,对于每个子区域(如,中国)都拥有成百上千对(_X,_Y)来构造该区域的形状。我们来看一下世界地图的轮廓。

cd D:\sus_part3\data
use countries_cor.dta,clear
scatter _Y _X,msize(vtiny)

  运行结果如下图所示:

image

  该层还可以设置[attribute]选项,该选项是在使用spmap命令时,位于master数据集中的一个数值型变量,比如各国在Sus上的发文总量(SUM)。我们通过设置渐变色来直观地展示世界主要国家和地区的发文情况。

use draw_dbf.dta,clear  //master数据集包含了[attribute]变量SUM
spmap SUM using countries_cor.dta, ///    
  id(_ID) clmethod(custom)  /// **设置标识变量,分级类型为用户自设**/ 
  clbreaks(0 100 500 1000 2000 3000 5000 13000) fcolor(Reds2) /**设置分段,设置渐变色为红色渐变**/

  运行效果如下图所示:

image

  第二层:根据研究需要,我们可以在底层地图上添加各种空间对象(spatial objects)。目前,spmap命令有6种空间对象可供选择,分别是多边形(polygon)、点(point)、线(line)、箭头(arrow)和标签(label)。比如,现在我们想突出显示美国这个子区域:

**从世界地图中将构建美国区域的坐标对另存为USA_cor.dta**
use countries_cor.dta,clear
keep if _ID==252
save USA_cor.dta,replace

use draw_dbf.dta,clear
**第一层,底层地图**
spmap SUM using countries_cor.dta, ///
    id(_ID) clmethod(custom)  ///
    clbreaks(0 100 500 1000 2000 3000 5000 13000) fcolor(Reds2) /// **第二层,突出显示美国区域,蓝色填充,轮廓线粗细适中**/
    polygon(data(USA_cor.dta) fcolor(blue) osize(medthin))

  运行结果如下图所示:

image

  再比如,我们想以发文量为比重描点。

use draw_dbf.dta,clear
**第一层:底层地图**
spmap using countries_cor.dta, id(_ID)  /// **第二层:在底层地图上描点,world_point.dta包含了描点的坐标xcoord和ycoord变量**/
    point(data(world_point.dta) xcoord(xcoord) ycoord(ycoord) /// **第二层美化:设置比例变量为SUM,填充颜色为彩虹色**/              
        proportional(SUM) shape(o) size(large) by(_ID) fcolor(Rainbow))

  运行结果如下图所示:

image

  第三层:根据自身的需要,我们可以在第一、第二层上添加更多元素(elements),比如比例尺(scalebar)、标题(title)、注释(note)、图例(legend)等。

use draw_dbf.dta,clear
**第一层:底层地图**
spmap SUM using countries_cor.dta, ///
    id(_ID) clmethod(custom)  ///
    clbreaks(0 100 500 1000 2000 3000 5000 13000) fcolor(Reds2) ///
        polygon(data(USA_cor.dta) fcolor(blue) osize(medthin))  /// **第二层:突出显示美国子区域**/    
    title("世界主要国家和地区在Sustainability发表论文的数量",size(*1.2)) subtitle("Jan.2009-Sep.2020",size(*0.8)) /// **第三层:添加图例、标题等其他元素**/
    graphregion(margin(medium)) ///
    note("Source:爬虫俱乐部整理")

  运行结果如下图所示:

image

3. 关键点

  综合来看,使用spmap作图有两大难点。

  (1)获取坐标数据集难

  在第二部分的简单应用中,我们所用到的坐标数据集有:countries_cor.dta:世界国家级地图坐标数据集,是使用shp2dta命令转换countries.shp文件而来。而.shp由ESRI(Environmental Systems Research Institute)开发的shape文件,一个shape文件包括一个主文件,一个索引文件,和一个dBASE表。其中主文件的后缀就是.shp

image

  简单来说,shape文件是美国一家地理信息系统技术公司制作的坐标数据文件,我们可以使用Stata的外部命令shp2dta将该文件转换为dta文件。shape文件可以在某度搜索,关键词为“中国 shapefile”,或者从https://gadm.org/data.html下载。转换命令为:

ssc install shp2dta
shp2dta using countries.shp, ///    
   database("countries_dbf") coordinates("countries_cor")

  USA_cor.dta:美国地图坐标数据集。从countries_cor.dta中提取的_ID为252(代表美国)的坐标对。
  world_point.dta:描点坐标数据集。该数据集包括发文量top10的国家的坐标对(每个国家只需要一组,一般是该国的首都经纬度),因为数据量比较小,所以本劳模手工查找了这些国家首都的经纬度,如果数据量比较大,也可以在某度中搜索,关键词为“世界各国经纬度表”。
  (2)理解master数据集和各坐标数据集的关系难
master数据集和各坐标数据集的关系确实一时难以理解,但肯定比《红楼梦》的人物关系简单。

image

  图中方框为数据集文件,圆圈代表对应的变量。其中的难点是,如何将master(我们自己的研究数据集)与basemap建立联结?可以看到,我们是通过countries_dbf.dta文件来建立联结的。
  countries_dbf.dta文件是转换countries.shp而来的文件之一,其数据结构为:

image

  我们自己的研究数据集draw_dbf的数据结构为:

image

  对比以上两个数据集,我们发现它们有相同的变量NAME,因此我们将两者横向合并:

use draw_dbf.dta,clear
merge 1:1 NAME using countries_dbf.dta,keepusing(_ID)

  这样,我们就通过_ID标识变量将master数据集与basemap数据集联结起来了。这也给我们一个提示:在整理自己的数据集(master)时应尽可能使每个观测对象的名称(NAME,比如国家名称、省市名称等)与countries_dbf.dta中一致。

  本文用到的所有数据集均可通过后台回复spmap获取,快去打开Stata试试看吧~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351