NCBI数据库Fastq原始序列上传和登录号获取

最近文章要求原始数据上传NCBI数据库，小白摸索了一路总算有了点认识哈哈~写下来当做笔记。

1.账号

首先我们要登录NCBI网站，见图1右上角，如果有账号直接登陆就好。没有的话需要注册，最近NCBI网站不能注册只能通过第三方账号注册登录，比如google，facebook等(图三)。facebook注册了一半想起来我有个现成的google邮箱，但是申请的时候打错字了，所以注销了google重新开了一个。另外就是google邮箱申请需要外网，我朋友推荐了蓝灯(lantern)，之前用过觉得网速不好，最近下载了用，感觉申请账号看邮箱，妥妥的。此外遇到的google邮箱申请的时候，电话号码显示不能注册，第一点是要加86区号，另外就是浏览器语言设置成英文。网上有教程，大家遇到可以查查。

图1

图2

图3

2.Bioproject申请

这部分和网上大多数的教程就差不多了，记录的不详细的部分大家可以在搜一搜。进入submit，然后到my submissions，之后进入BioProject，点击new submission。这部分的步骤有很多种，并不固定如何进入建立账号的顺序等等，方法很多，网上找找教程，跟着一步一步来就可以。

图4

图5

图6

图7

提交者信息的填写，这部分没什么好说的，根据实际情况来吧。下一步是项目类型，还是根据实际情况来，没啥好说的。之后有物种等等信息填写，繁琐到我不想解释哈哈。送你们两条连接吧~这两个连接给的很详细，所以不想解释了。我写点别的了。BioSample内容填写也差不多。参照这两个链接就好。

手把手教你NCBI数据上传

【实用干货】如何上传数据至NCBI？

图8

图9

图10

3.数据上传部分

建立SRA，第一页的Submitter完全相同，后边是和Biosample，Bioproject建立连接。图12是样本基本信息填写，和bioproject，biosample相同可以一条一条的添加，也可以直接传表，把表格下下来，然后填写，每个列名都有批注，我记得好像表格三个工作簿还是每个选项的解释。

图11

图12

上传数据，数据量少的话选择第一种，多的话后边两种，我选的第二种。通过miniconda下载安装了Aspera。conda安装真的简单，也就两三句命令吧~

source activate 进入conda

conda info -e 查看环境

conda create -n Aspera创建新环境

conda activate Aspera 进入Aspera环境

conda install -c hcc aspera-cli -y Aspera环境的安装

ascp -h 查看是否安装成功

另外就是注意key file位置：miniconda3/envs/Aspera/etc/asperaweb_id_dsa.openssh。对应自己文件的存放位置去找就是了。

上传命令的格式:ascp -i [key file 路径]-QT -l100m -k1 -d [需要上传文件的路径] [NCBI存放路径]注意这里最好在新文件夹存放，不要放在根目录下。存放路径在图14，红色部分。

图13

图14

4.另外说点别

1）bioproject建立了我就直接提交了，竟不想自己不能删除，所以写了邮件给NCBI那边，删除了这个错误的bioproject,所以小盆友们填写信息要谨慎，不然后边需要写邮件或者电话和NCBI沟通。

2）数据提交后，显示文件损坏。交了很多次一直显示文件损坏。gzip -t 检查了fastq.gz文件也是一直报错，压缩文件损坏了，后来找同事重新下载了文件，重新上传。期间还和NCBI工作人员要了详细的文件损坏报错信息。NCBI回复信息还是很快的，我的邮件基本是下班发送，第二天就有三四封邮件给我回复过来。

3）SRA数据处理比较慢，SRA数据我大概上传了200多个G，我看网上说最后的processing这步一般是半小时左右，结果我等了一个小时都没过去。直接下班了哈哈，第二天就通过了。NCBI登录号也收到了。

4）登录号的获取

图15

图16

NCBI数据库Fastq原始序列上传和登录号获取