测序文章在审稿期间,审稿人往往需要作者上传原始数据至NCBI。而搜索引擎搜到的参考资料甚少,不得不边摸索边总结,几番倒腾终于上传成功。今天小编把经验用图文展示,手把手教你,一步步上传自己的测序测序数据值NCBI。
本文原载于公众号"生信天团",此处做进一步修改完善。
首先,你需要注册一个NCBI的账号,用自己常用的邮箱申请即可。
然后登陆到SRA数据库的官方网址:https://submit.ncbi.nlm.nih.gov/subs/sra/
操作步骤:
在SRA官方网址点击New submission,进入Submission Portal界面,以下步骤按照SRA递交程序讲解,标记“***”为重点内容。
一、SUBMITTER
按照内容提示,填写相关的信息,如提交者姓名、邮箱、单位、地址等……
最后点击Continue
注意,填写邮箱会提示qq、163、foxmail等邮箱不能收到NCBI邮件,需要提供其他可供使用的邮箱。事实上,是可以收到NCBI邮件的,但是还是按照要求换成其他,如gmail等。
二、GENERAL INFO
BioProject:询问是否注册过BioProject,第一次递交或者不同的测序工程,选择No。
BioSample:询问是否提交过BioSample,选择No。
Release data:公开日期。可以选择立即释放或者指定日期,依个人需求。
点击Continue
三、PROJECT INFO
Project title:为递交的Project命名,“?”有提示范例
Public description:简单描述
Relevance:相关领域
Is your project……:询问是否为子项目,选择No
External Links:外部链接,可以不填
之后的其他参数根据需求填写,可以空缺。
点击Continue
四、BIOSAMPLE TYPE
Sample Type:根据测序样本选择相应的属性,如微生物、模式物种、无脊椎动物、人、植物等。
点击Continue
五、BIOSAMPLE ATTRIBUTES
Attributes:选择提交 BioSample attributes的方式,提供在线表格和Excel文档,建议使用Excel文档,更易于批量修改。
选中后,点击Download Excel Download TSV 下载Excel表格。内容如下:
填写说明:sample_name必须唯一,且与提交的 clean data文件匹配。绿色表达必填选项,蓝色表示这些字段中至少有一个是必需的,黄色标识可选内容。
填写完成保存后,选择Choose file上传文件。
点击Continue
如果提交后报错 :
Error: Your table upload failed because multiple BioSamples cannot have identical attributes.
破解办法:在文件末尾新添一列,如id,并编号1,2,3……
六、SRA METADATA
SRA metadata:递交数据的格式,提供在线表格和Excel文档,建议Excel。
下载Download Excel spreadsheet ,如下图:
Sheet1 = Contact Info and Instructions,填写说明文档
Sheet2 = SRA_data,真正需要自己手动填写的部分
这里提供我上传的范例:
【重点:难点:易错点】
- 双侧测序:针对illumina转录组测序,都是采用双端测序,一个样本会产生两个文件,分别为左右两端。而在上传时候,只需要在一个生物样本内,填写两个filename即可。这也是笔者摸索很久才搞清楚的。而其他诸如microRNA则采用单端测序,只需递交一个filename即可。
- 生物重复:可以在design_description中写明生物重复。
- 样品名字:最好将samplename和之前Biosample attributes提交内容一致。libraryID我是复制sample_name。
点击Continue
七、FILES
这才进入上传数据的主题,有三种可供选择的上传方式:
Method 1. 网页上传:建议文件大小不超过2GB,大于2GB则需要安装Aspera connect插件。
Method 2. FTP、Aspera、Amazon S3上传:
- FTP: 点击选择,展开列表可以看到具体上传的方式。需要下载安装FileZilla等软件,NCBI会提供你上传的地址、用户名和密码。如我的是
Address: ftp-private.ncbi.nlm.nih.gov
Username: subftp
Password: ******* ***
- Aspera:懂得linux操作的应该对这个软件不陌生,是上传下载原始数据的利器,可以参看我之前的文章SRA原始数据高速下载查阅使用教程。
以Linux为例:
• 首先,下载Get the key file文件,然后将红色框内代码保存为txt文件。将两个文件上传至自己的服务器或linux上。
• 命令行操作代码:
ascp -i <path/to/key_file> -QT -l100m -k1 -d <path/to/folder/containing files> subasp@upload.ncbi.nlm.nih.gov:uploads/jfxie2013_163.com_00yOGS42
<path/to/key_file>:路径为下载好的“Get the key file”文件的绝对路径(文件名为aspera.openssh)
<path/to/folder/containing files>:所有需要上传的文件的文件夹路径,注意里面不要包含其他任何无关数据。
注意:确保ascpera添加到环境变量中。
之后静待数据上传吧,Aspera上传的另一个好处是可以支持断点续传,简直不要太赞了。
以Windows为例:
- 下载Aspera软件,并安装。https://www.ibm.com/aspera/connect/
- 要下载key file,并记住下载的位置,后面需要调用这个文件。
-
启动Windows + R→ 输入cmd → 确定 → 打开命令提示符
首先将目录转移到aspera的根目录下,即bin目录下
-
输入提供的命令行代码并修改文件位置即可(不受中文影响)。
Method 3. Amazon S3: 应该是亚马逊云服务。
上传完成后点击Select preload folder
点击Refresh folders可以看到已经上传好的数据,尽快进行下一步,好像这个保存并非长久的。
然后选择Use selected folder。
点击Continue
八、REVIEW & SUBMIT
进入这一页已基本完成了,再审查一下所递交的内容有无纰漏。
无需多久NCBI就会审核通过。
参考资料: