大量测序数据上传NCBI方法

1、把要上传的数据整理在一个文件夹里。

2、用NCBI账号或ORCiD、Microsoft、Google账号登陆,选择Submit,向下滚动,找到Sequence Read Archive (SRA)工具,点击Submit。

向下滚动,找到Sequence Read Archive (SRA)工具,点击Submit。


3、新建提交,填写相关信息。


①Submitter:打星号的是必填信息。两个邮箱不能都是163邮箱或QQ邮箱。填好后点Continue。后面的步骤也是填好后点Continue。

Submitter


②General Information:第一次提交都选NO;一般释放时间都延迟到论文发表后,不提前释放。

General Information


③Project Info:填写项目名称、介绍、基金等信息。“* Is your project part of an umbrella project which is already registered with NCBI?” 一般也选择No。

Project Info


④Sample Type:选择样本类型,植物、动物、菌等。

Sample Type


⑤Biosample Attributes: 最好在线填写,可检查填写信息是否正确,也可下载后填写再上传。

Biosample Attributes


Biosample Attributes信息下载表格填写,标绿色的为必填信息。*organism要填写物种的物种拉丁文名称(双名命名法)。填写好上传点击Continue后会检查填写格式是否正确,如果有报错或警告,根据提示更改报错和警告信息。

Biosample Attributes信息下载表格填写


为了避免上传样本信息的差异性,可在表格的最后一列添加tmpl列,用数字连续编号区分,就可以避免重复了。

样本信息表格最后一列添加tmpl列

⑥SRA Metadata:最好在线填写,可检查填写信息是否正确,也可下载后填写再上传。

SRA Metadata:最好在线填写,可检查填写信息是否正确,也可下载后填写再上传。


SRA Metadata填写时注意:sample_name和样本信息表格的sample_name名字一致;双端测序的filename有两个文件,就填写测序原始数据的两个文件名,填写时要把文件的后缀名带上,比如XX.fq.gz。填完后,点Continue进行下一步上传数据。

SRA Metadata填写注意事项


⑦上传数据(关键步骤)

step1:原始数据很大时,在Files选择“FTP or Aspera Command Line file preload”上传。

Files选择“FTP or Aspera Command Line file preload”


然后下载安装IBM Aspera Connect,下载网址:https://www.ibm.com/products/aspera/downloads#cds。下载适合的版本,按普通软件的安装方式安装。

红色箭头方向标注IBM Aspera Connect下载步骤


step2:记录下AsperaConnect安装好的位置,一般在bin文件里,我的在

C:\Program Files\IBM\Aspera Connect\bin

AsperaConnect安装位置


step3:再在Aspera command line instructions里下载key file,点击即可下载。

Aspera command line instructions里key file位置


step4:key file 下载后显示的名字为aspera.openssh,记录其存储位置,并把aspera.openssh 粘贴到存储位置后面。

D:\aspera.openssh

key file 的存储位置


step5:把要上传的数据都整理在一个文件夹里,记好数据存储位置

可选中其中一个数据查看文件属性即可知道位置信息

我的数据存储位置  F:\2022DLGBS\GKX220316-810 

数据存储位置


step5:用“命令提示符”上传数据

根据NCBI里File下的提示,用命令上传数据。

NCBI里File下的命令提示


快捷键“windows+R ”,搜索打开cmd命令行窗口后输入

cd C:\Program Files\IBM\Aspera Connect\bin #先进入IBM Aspera Connect安装位置

C:\Program Files\IBM\Aspera Connect\bin>ascp -i D:\aspera.openssh -QT -l100m -k1 -d F:\2022DLGBS\GKX220316-810 subasp@upload.ncbi.nlm.nih.gov:uploads/****** # 进入IBM Aspera Connect安装位置后调用Keyfile用命令上传数据到NCBI

通过命令提示符上传数据

传输过程中遇到的问题①:如果传输中断,提示“19 [Peer aborted session]

Partial Completion: 170022323K bytes transferred in 15423 seconds

(90302K bits/sec), in 161 files, 1 directory; 41 files failed.

Session Stop  (Error: Disk write failed (server))”,可再次通过输入以上代码重启上传。

传输中断后重新上传


传输过程中遇到的问题②:Session Stop (Error: Session data transfer timeout (server)),IBM Aspera Connect---Specific transfer failures里给出的解释是可能网络中断,重新连网或者换一个网络,再重新上传即可。


IBM Aspera Connect---Specific transfer failures


传输过程如果有其它问题:可以参考IBM Aspera Connect官网的Transfer issues,网址 https://www.ibm.com/docs/en/aspera-on-cloud?topic=support-transfer-issues。

IBM Aspera Connect---Transfer issues


step6:传完后,选择自己要提交的文件夹,然后点Continue。(只能选择一个文件夹提交,所以在上传前把要上传的数据都要整理在一个文件夹下再上传。传完数据后,要检查上传数据的完整性,包括GB数、Files数、Size。)

上传完后,选择提交相应的数据。


⑧最后,生成上传数据的各项信息,检查各项信息是否正确,如果都没问题就可以点击Submit提交了。

生成上传数据的各项信息,检查后提交。


提交成功后会生成相应的NCBI登录号PRJNA******,看到数据相关的上传信息,并收到提交成功的邮件。

提交成功
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容