如何上传测序数据至NCBI？

文章发表一般要求将测序数据上传至NCBI的SRA（Sequence Read Archive）数据库。上传到NCBI 的数据可归纳为两大类：测序原始数据和分析数据。原始数据（Raw data）指测序下机的最初文件，未经任何处理和分析。

1. 注册NCBI帐号

https://www.ncbi.nlm.nih.gov/account/，点击“ Register for a NCBI account”，进入到注册页面，如实填写信息。(尽量使用项目提交人的信息进行注册)

2. 创建BioProject

https://submit.ncbi.nlm.nih.gov/subs/bioproject/，在界面上选择 new submission ，依次填写SUBMITTER、PROJECT TYPE、TARGET、GENERAL INFO等信息，后面的BIOSAMPLE和PUBLICATIONS两个界面可以不写相关信息，都直接点Continue，进入OVERVIEW界面。如果有问题可返回修改，没问题的话即可点击submit提交。
创建成功后，再次进入该网址，会出现BioProject编号，以PRJNA开头，可放在文章中。（注册人的邮箱会收到相关邮件）

BioProject.png

注意：

SUBMITTER：email选项中，两个邮箱中要留一个该测序项目负责人的常用邮箱（qq/163邮箱除外的大学/科研机构邮箱），因为后期如果想要修改数据信息或者释放时间，都需要该邮箱发送邮件到NCBI才会被受理。
Project Type：一般高通量测序数据可选择“Raw sequence reads”。
Sample scope：是对实验物种的简洁描述或者说是一个题目，根据不同选择会影响后面TARGET的填写。
GENERAL INFO：Release data是数据公开日期，可以点击立即释放，也可以选择具体时间，一般选择在文章发表之后释放。

3、创建BioSample

https://submit.ncbi.nlm.nih.gov/subs/biosample/，在界面选择 new submission。大致提交过程如下截图所示，最终提交完成后，每个样本会有一个样本编号，以SAMN开头，用于后面提交原始数据。

BioSample.png

注意：

SAMPLE TYPE：该研究中样本类型为BALF，因此选择metagenome or environmental sample。
ATTRIBUTES：填写样本信息表，必填内容包括sample_name、sample_title、bioproject_accession、organism、host、isolation_source、collection_date、geo_loc_name，其中sample_name必须与测序数据文件前缀一致，可以是纯数字格式。填写格式可参考下图。

image.png

ATTRIBUTES.png

4. 提交原始数据至SRA

https://www.ncbi.nlm.nih.gov/Traces/sra_sub/sub.cgi，选择 NCBI PDA入口，填写个人信息后，点击 create new submission >> New submission。

SRA.png

注意：

SRA METADATA：填写文库相关信息，内容及格式可参考下图，其中双端测序数据的文件名（包括后缀）应写两个。

SRA METADATA.png
FILES：单个样本数据量超过10Gb以上或者数据太多，需要用其他方式上传，比如aspera，勾选aspera上传选项后，会在下方出现“Select preload folder”。下载aspera.openssh文件至本地，然后上传至服务器。根据页面提示方法，运行下方命令，即可完成上传。

~/.aspera/connect/bin/ascp -i aspera.openssh -QT -l100m -k1 -d reads.path subasp@upload.ncbi.nlm.nih.gov:uploads/husy_163.com_1f3LOev0

数据上传比较慢，等数据都上传完成后，再点击“Select preload folder”，即可出现上传好的原始数据，点击“Use selected folder”，继续即可。
注意：数据上传完成之后，NCBI还需要一段时间对数据进行processing，若页面提示"error"（比如提示数据文件格式有问题），只能发邮件联系sra@ncbi.nlm.nih.gov，数据上传成功会出现"processed"标志，每个样本会对应获得一个SRR编号。SRA处理邮件的效率还是很高的。