Dataverse使用心得

NTU自2014年就设立“数据管理馆员”一职,跟踪数据管理领域的进展。

2016年4月,SCG联合NTU的行政部门出台“研究数据管理政策”。SCG为此编写了“NTU研究数据管理模板”,设计了十个问题供老师填写,每个问题后面都有指南和样本,并嵌入NTU的科研管理平台RIMS,指导教师在线填写。

除此之外,SCG每月举行一次Data Management Workshop,手把手教老师和研究生如何撰写项目的数据管理计划。SCG在2016年去北大和哈佛大学考察,最终确定Dataverse为数据管理的平台,计划明年初正式推出。

这段时间留在SCG,空闲的时间就当个小白鼠,测试一下Dataverse平台。伟耀老师向我详细介绍了Dataverse的结构:典型的套娃结构,很好理解。

Dataverse Layers

数据结构总共分三层:Dataverse(北大翻译成“数据空间”)、Dataset(数据集)和File(文档)。Dataverse下面可以套好多层的Dataverse,无限延展下去。最小的那个套娃就是Dataset数据集,数据集就是由很多种格式的File组成。Dataverse可以是个人主页、研究小组、研究项目。

页面呈现也非常简洁。进入NTU的Dataverse就可以看到该机构highlight的几个Dataverse,比如3D Printers Dataverse, Photography and Design Dataverse, Nanyang University Graduates Name List Dataverse等(我建议正式推出后,可以根据下载量展示项目。当然,也可以根据机构的需要highlight某几个项目)。左上角是该机构所有的Dataverse被下载的总次数。左边的分面浏览部分有Dataverse、Datasets和Files的总数。勾选后,右侧页面就会呈现出相应类别的内容列表。

特别神奇的是,我的电脑里大部分文字是中文,而伟耀老师的界面全是英文。不知道这部分是不是Dataverse做的汉化,然后根据电脑系统自动给出不同语言的界面。

Dataverse homepage

左侧分面浏览的参数是可以设定的,比如出版状态、数据空间的种类(研究项目、课题组、研究者、组织或机构)、元数据来源(从外部收割来的,还是NTU本身的,或从IR收割来的)、出版时间、作者姓名、学科、关键词、存储日期、主题分类等。师生可以自己勾选想要的参数,如果不想看那么多参数,就用系统默认参数即可。


Default Parameters

我注册后,在总的NTU Dataverse下建立了自己的Dataverse,叫Ivy Wei Yang Dataverse。这就是教师的研究数据总库了。然后我打算根据不同的研究项目建立单独的Dataverse,于是,在Ivy Wei Yang Dataverse下分别建立了National Gallery Dataverse, National Museum Dataverse, Asian Civilization Museum Dataverse和SG Food Dataverse四个数据空间。

Ivy's Dataverse

数据空间的首页图片在页面右侧“编辑Dataverse”中的“主题+小工具”里添加。

cover

可以为你的主页设计一个标语,以及该标语的链接,我选择连到了自己的ORCID。

slogan & website

下面的四个Dataverse则在“编辑Dataverse”中的“特色Dataverse”中勾选需要显示的Dataverse。

Choose Showcase Programmes

为了测试Dataverse的套娃结构,我又选择Asian Civilization Museum Dataverse建立了三个Sub Dataverse,分别为Trade Dataverse, Tang Shipwreck Dataverse和Inkstick Dataverse。

Dataverse and Sub dataverse
Trade Dataverse

Trade Dataverse上的slogan是我最近的逛展心得:陶瓷之所以重要,因为它既有实用价值,又有美学价值,还有考古价值。然后很臭美的冠名——Ivy。

在Trade Dataverse的Banner下面,已经清楚地展示出了我所建立的四层结构:第一层为NTU总Dataverse,第二层为我的Dataverse,第三层为Asian Civilization Museum的Dataverse,第四层为Trade Dataverse。这样下去可以套无数个Dataverse。就此打住,我在Trade Dataverse下直接建立了Dataset,取名“Trade in South East Aisa”,该数据集下有三个Files。

Files

每个File下面都可以写描述性文字,还可以加标签。在上传files的过程中,就可以直接加description和tags了。但一个个输入description和tag真的很麻烦,我后来发现,先把所有files上传之后,点击多选files,然后在Edit Files下批量加tags非常方便,批量Restrict,批量Delete都很方便

mass treating

修改完数据后,如果不发布,就保存为草稿。如果发布,系统会自动根据修改的量来确定是Version 1.1呢还是Version 2.0。如果新增或删除files,就是大修改,系统会自动发布成Version 2.0,如果修改个tag或权限,则是小修改,系统会询问你是选择小修改呢Version1.1还是大修改Version 2.0.

publish

如果你上传的文档不是像word,excel,pdf,jpeg那样的通用文档,最好写个说明,也就是Documentation,告诉使用数据的人,如何读取你的数据。比如我从有道云笔记中导出了一个.ynt的文件,不熟悉的人并不知知道该如何读取。于是我在files里加了一个Documentation.txt的说明文档,并tag为Documentation。我的Documentation很简单,就写了一句话:The file type of .ynt can be viewed by the software of Youdao Note(有道云笔记)which can be downloaded from: https://note.youdao.com/。所以,数据管理这种看起来超级高大上、无法仰视、无法企及的东西,操作起来并不困难。很多困难都是纸老虎paper tiger,自己设置的心理障碍比困难本身更难以逾越。

我可以把自己的files设为不公开,并设定如果别人要下载我的非公开数据需要提供什么信息。像我这么nice的人一般只要求别人陈述下载原因,所以我自己设计的表格就需要别人提供:姓名、电邮、机构、职位(这四个一般系统默认),再加上“Please specify your reason”,这是我自己写的。访问者填写好这些信息后就可以直接下载了,不需要我同意。因为Dataverse本来就是鼓励公开的。

guest book


我刚才用的是Guest book的目的就是设定读者在下载我的数据时,需要提供什么信息。上周五我测试时,伟耀需要先向我提交请求,我grant之后,他在下载前才需要填这个guest book,但今天发现是先填guest book然后就可以直接下载了,不需要我grant,看来Venki可能在设置上做了些改动。

选中数据后,点击“许可+条款”就可以设置了。下图是我设好的,可以点击“Edit Terms Requirements”重新设定。

set your terms

使用条款一般是默认CC0,也就是署名+非商业用途,当然,也可以自己设计使用条款。比如保密声明、特殊权限、引文要求、存放要求、放弃权利等。

可以设置访问条款。比如告诉读者,我的数据为什么不能够下载,或下载后要怎么合理使用等。也可以详细设置访问地点、原始存档、可用状态等信息。

set your terms

可以选择NTU默认的guest book,也可以设置自己的Ivy guest book。

guest book

只有两个层级的Dataverse会显示下载记录,一个是NTU总的Dataverse,显示的是总下载量。还有一个就是你自己的Dataverse总最底层的那个Dataverse。比如我的下载次数并不显示在Ivy Wei Yang Dataverse这一层,而是显示在National Gallery Dataverse这一层。因为这个dataverse以下就没有sub dataverse了,而是数据集dataset了。

我觉得这样有点不太合理。作为一个研究者,我当然希望看到自己的每个研究项目被下载了多少次,也希望看到自己的所有研究项目被下载的总次数。所以如果能在第二层Dataverse,也就是Ivy Wei Yang Dataverse那个地方显示我四个子项目的总下载次数是最好的。最好首页还能有个排行榜,列出Top 10的研究团队的下载次数。

Metrics

以上就是我使用Dataverse的心得。

其实做数据管理最大的难处,就是让老师们理解规范数据的好处。像我这样写个blog的行为就是在做数据存档了,也相当于为自己的数据做个Documentation。以后有人要学Dataverse时,可以参考我这篇一步步做下去。但,我写篇blog需要花上一两个小时,需要梳理思路、需要重新截图、需要整理文字。这就是routine work之外的工作了。如何让老师了解到:花一两个小时或更多的时间来整理和存档数据是相当有意义的、投资回报率高的行为,这是一个困难且长期的工作。就像我写完这篇blog,也不知道这些文字将来能为我省下多少时间。

还有很大的一块没有测试,就是研究组各成员之间的权限分配、互动,以及研究人员离开后,之前的编辑历史是否能有效保存下来,都还没有测试。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,492评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,048评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,927评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,293评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,309评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,024评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,638评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,546评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,073评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,188评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,321评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,998评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,678评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,186评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,303评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,663评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,330评论 2 358

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,680评论 18 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 172,234评论 25 707
  • 再往前行走 我的人生便不再有你 你匆匆忙忙转身消失在我的余光中 或重或轻的一掷 却足以荡起一阵涟漪 或浓或淡的一笔...
    阿栩阅读 138评论 0 0
  • 不要输给 夏日厚大肥嫩的叶子 也不要输给 悬而未决的固执 不要输给 冬日高阔远亮的天空 也不要输给 按部就班的从容...
    猫扑早安阅读 116评论 1 1