为发表论文故,测序数据一般需要上传至公共数据库,对我们而言,国外数据库一般选NCBI,国内的可上传至GSA。其中,人遗数据需要上传到GSA-human,其他物种数据上传到GSA即可。
自从2019年国家出台了人遗资源相关的条规后,所有上传至公共数据库的人遗资源都需要在科技部备案。上传到国内的GSA-human,必须要有备份号和备案号才能释放数据;上传到NCBI,释放数据虽然不需要这两个编号,但如果被人举报没有提前进行备份和备案......可能就不只是一篇文章的事了。上传到GSA的数据不需要备份或备案,可直接释放。
本文仅针对人遗数据共享,稳妥起见(节省时间),建议提前上传数据至数据库,生成临时访问链接后投稿;同时申请备份号,拿到备份号之后才能申请备案号。 下面会具体介绍如何进行备份、备案,以及如何上传数据至GSA-human和NCBI。
申请备份号:需提交数据
人类遗传资源信息备份平台: https://202.108.211.75/ 有时候会提示为不安全链接,继续访问即可。个人感觉这一步并没有“卡“一说,主要目的是将数据留存到国家平台。
时间:大概20天获得备份号。
联系:电话咨询,是一位说话温柔的小姐姐接电话,很耐心;邮件沟通,一般第二天就能收到回复,高效。
基本流程:
-
注册个人账户,这里不需要用PI信息,个人注册即可。
证件上传:(2022.4)新出的要求,认证需上传组织机构代码证复印件、经办人本人身份证复印件、法人授权委托书(经办人非法人的情况)。
经办人本人身份证复印件:经办人指账号所有人,不是项目负责人。人遗办小姐姐说“不同项目可能对应不同的PI,所以不能认证PI”。
法人授权委托书(经办人非法人的情况):没有模板,自行撰写,盖单位公章或者法人签字都可。-
登录后仔细看”操作指南“
-
点击“新建项目”:输入相应信息,项目负责人填课题组负责人。
使用范围说明:“对外提供”一般指提供给国外团队(国际合作);发表文章一般选“开放使用”,开放方式可多选,如果需要上传至公共数据库,同时选“论文发表”和“信息平台共享”。
-
创建后,会自动跳转到“项目列表”,点击“查看”可以看到项目具体信息,点击”添加“新建备份名称,点击“添加文件”后,可以通过“添加待上传文件”直接通过网页上传数据,或通过“添加邮寄文件“上传数据。
添加待上传文件:通过网页直接上传,非常非常慢。
添加邮寄文件:需输入单号、文件名(硬盘里的文件夹名称)。强烈建议超过50G的数据通过硬盘邮寄方式上传。一般一周内会上传完毕(可以每天上来刷一刷,上传完后会提示文件进度100%)。硬盘一般不能立即取回,需保留在人遗办一段时间,待获得备案号之后可以写邮件申请取回硬盘(顺丰到付)。硬盘邮寄时,需要在里面附上一个纸质说明,包含以下信息:项目名称、编号、联系人及联系方式、需上传的数据。硬盘里仅保留需上传的数据(命名方式为项目名称-联系人及电话,如 ABCD测序-fatlady18811111111),不要同时存储其他数据。
- 一般20天左右可以查询到备份号(BF开头的一段字符)(拿出追剧的热情,每天刷一刷),这时候可以写邮件申请返还硬盘,虽然对方不一定给寄,但是保持联系总是没错哒!获得备案号后,肯定就能返回硬盘啦。
申请备案号
科技部政务系统备案: https://fuwu.most.gov.cn/ 填写材料,需填写备份号。
时间:大概20天
注意:测序公司最好不要选有外资的企业,否则提交是可能被认为是国际合作,可能无法通过审核。
主要流程:
-
提前准备的材料:论文原文、法人资格材料
联系人写自己;负责人写PI
-
流程:提交材料——单位科技处审核——科技部安全审查——审核通过,获得备案号;或者被打回,根据意见修改(科技部每月开两次会讨论人遗申请)。
数据上传至GSA(国家信息中心、中科院基因组所数据中心 )
人遗的数据提交到GSA-human https://bigd.big.ac.cn/gsa-human/;其他数据提交到GSA即可。
必须用PI邮箱注册,通过审核后用PI邮箱登录操作(提交数据等),可以将联系人设置为自己,这样有任何问题工作人员会直接找联系人。
联系:加入QQ群,回复率较高,如未及时回复,私聊工作人员即可。
上传:从官网下载最新的手册,通过FTP上传文件(最高可达8M/s),太大可通过邮寄上传。
将数据设置为公开访问(开放时间设置好,之后可修改延后)。
数据公开(共享)需要过审:要求有人遗办的备份号、科技部的备案号。
仅支持部分杂志:https://bigd.big.ac.cn/gsa/statistics?active=articles
All sequencing reads have been deposited in the Genome Sequence Archive in National Genomics Data Center, China National Center for Bioinformation / Beijing Institute of Genomics, Chinese Academy of Sciences, under accession number HRA000684 (http://bigd.big.ac.cn/gsa-human/s/3kUd5023) .
数据上传至NCBI
原始测序数据(fastq)一般提交到SRA https://www.ncbi.nlm.nih.gov/sra/docs/submitportal/,具体根据流程来就行。不超过50G的数据可以通过FTP直接上传,目前我所在单位有线网络上传速度为~800Kb/s,数据不多时尚可接受。胜在有可视化页面、操作便捷。超过50G的数据,建议通过服务器用aspera上传,胜在稳定(如果网络不断,基本不会中途中断)。
Note:人遗数据如果想设置为controlled access,需要上传至dbGAP。
FTP上传
下载filezilla
输入主机、用户名、密码(NCBI提供的三个)。此时总是出现响应
550 permission denied
错误。不用管它,直接输入NCBI给的目录点开自己的本地站点目录。右键文件上传,上传后注意检查文件大小,有时网络中断导致文件上传不完整,需要重新上传(亲测无法续传)。
上传完后关闭filezilla即可。
aspera命令行上传[网上搜得攻略,未实操]
下载aspera connect软件安装
开始菜单搜索cmd,打开
打开显示C:\Windows\system32,光标一直在后面,重启下一行还是。所以之后加一个 cd D:/,切换到存储aspera的那个盘(此处要搜索aspera安装在哪里,找到bin文件夹),切换到子文件夹目录,直接接子文件夹目录名
-
用cd命令切换到aspera connect\bin5. 完成后输入NCBI让输入的命令行,
ascp -i <path/to/key_file> -QT -l100m -k1 -d <path/to/folder/containing files>subasp@upload.ncbi.nlm.nih.gov:uploads/xxxx
中间不用另起一行,直接接着文件夹名后输入l100m中的l是小写的L(这个尝试了好久)输入完成后回车,文件即自动上传。
废弃选项:国家人口健康科学数据中心
国家人口健康科学数据中心 (中国医学科学院生物医学大数据中心)https://www.ncmi.cn/phda/submit.html
2017年成立,到现在仍然是个鸟样。英文版竟然还没有上线。
“其他来源数据汇交”:提交数据,可设置公开时间和共享方式(如协议共享)。