最近文章要求原始数据上传NCBI数据库,小白摸索了一路总算有了点认识哈哈~写下来当做笔记。
1.账号
首先我们要登录NCBI网站,见图1右上角,如果有账号直接登陆就好。没有的话需要注册,最近NCBI网站不能注册只能通过第三方账号注册登录,比如google,facebook等(图三)。facebook注册了一半想起来我有个现成的google邮箱,但是申请的时候打错字了,所以注销了google重新开了一个。另外就是google邮箱申请需要外网,我朋友推荐了蓝灯(lantern),之前用过觉得网速不好,最近下载了用,感觉申请账号看邮箱,妥妥的。此外遇到的google邮箱申请的时候,电话号码显示不能注册,第一点是要加86区号,另外就是浏览器语言设置成英文。网上有教程,大家遇到可以查查。
2.Bioproject申请
这部分和网上大多数的教程就差不多了,记录的不详细的部分大家可以在搜一搜。进入submit,然后到my submissions,之后进入BioProject,点击new submission。这部分的步骤有很多种,并不固定如何进入建立账号的顺序等等,方法很多,网上找找教程,跟着一步一步来就可以。
提交者信息的填写,这部分没什么好说的,根据实际情况来吧。下一步是项目类型,还是根据实际情况来,没啥好说的。之后有物种等等信息填写,繁琐到我不想解释哈哈。送你们两条连接吧~这两个连接给的很详细,所以不想解释了。我写点别的了。BioSample内容填写也差不多。参照这两个链接就好。
3.数据上传部分
建立SRA,第一页的Submitter完全相同,后边是和Biosample,Bioproject建立连接。图12是样本基本信息填写,和bioproject,biosample相同可以一条一条的添加,也可以直接传表,把表格下下来,然后填写,每个列名都有批注,我记得好像表格三个工作簿还是每个选项的解释。
上传数据,数据量少的话选择第一种,多的话后边两种,我选的第二种。通过miniconda下载安装了Aspera。conda安装真的简单,也就两三句命令吧~
source activate 进入conda
conda info -e 查看环境
conda create -n Aspera创建新环境
conda activate Aspera 进入Aspera环境
conda install -c hcc aspera-cli -y Aspera环境的安装
ascp -h 查看是否安装成功
另外就是注意key file位置:miniconda3/envs/Aspera/etc/asperaweb_id_dsa.openssh。对应自己文件的存放位置去找就是了。
上传命令的格式:ascp -i [key file 路径]-QT -l100m -k1 -d [需要上传文件的路径] [NCBI存放路径]注意这里最好在新文件夹存放,不要放在根目录下。存放路径在图14,红色部分。
4.另外说点别
1)bioproject建立了我就直接提交了,竟不想自己不能删除,所以写了邮件给NCBI那边,删除了这个错误的bioproject,所以小盆友们填写信息要谨慎,不然后边需要写邮件或者电话和NCBI沟通。
2)数据提交后,显示文件损坏。交了很多次一直显示文件损坏。gzip -t 检查了fastq.gz文件也是一直报错,压缩文件损坏了,后来找同事重新下载了文件,重新上传。期间还和NCBI工作人员要了详细的文件损坏报错信息。NCBI回复信息还是很快的,我的邮件基本是下班发送,第二天就有三四封邮件给我回复过来。
3)SRA数据处理比较慢,SRA数据我大概上传了200多个G,我看网上说最后的processing这步一般是半小时左右,结果我等了一个小时都没过去。直接下班了哈哈,第二天就通过了。NCBI登录号也收到了。
4)登录号的获取