文章发表一般要求将测序数据上传至NCBI的SRA(Sequence Read Archive)数据库。上传到NCBI 的数据可归纳为两大类:测序原始数据和分析数据。原始数据(Raw data)指测序下机的最初文件,未经任何处理和分析。
1. 注册NCBI帐号
https://www.ncbi.nlm.nih.gov/account/,点击“ Register for a NCBI account”,进入到注册页面,如实填写信息。(尽量使用项目提交人的信息进行注册)
2. 创建BioProject
https://submit.ncbi.nlm.nih.gov/subs/bioproject/,在界面上选择 new submission ,依次填写SUBMITTER、PROJECT TYPE、TARGET、GENERAL INFO等信息,后面的BIOSAMPLE和PUBLICATIONS两个界面可以不写相关信息,都直接点Continue,进入OVERVIEW界面。如果有问题可返回修改,没问题的话即可点击submit提交。
创建成功后,再次进入该网址,会出现BioProject编号,以PRJNA开头,可放在文章中。(注册人的邮箱会收到相关邮件)
- SUBMITTER:email选项中,两个邮箱中要留一个该测序项目负责人的常用邮箱(qq/163邮箱除外的大学/科研机构邮箱 ),因为后期如果想要修改数据信息或者释放时间,都需要该邮箱发送邮件到NCBI才会被受理。
- Project Type:一般高通量测序数据可选择“Raw sequence reads”。
- Sample scope:是对实验物种的简洁描述或者说是一个题目,根据不同选择会影响后面TARGET的填写。
- GENERAL INFO:Release data是数据公开日期,可以点击立即释放,也可以选择具体时间,一般选择在文章发表之后释放。
3、创建BioSample
https://submit.ncbi.nlm.nih.gov/subs/biosample/,在界面选择 new submission。大致提交过程如下截图所示,最终提交完成后,每个样本会有一个样本编号,以SAMN开头,用于后面提交原始数据。
- SAMPLE TYPE:该研究中样本类型为BALF,因此选择metagenome or environmental sample。
-
ATTRIBUTES:填写样本信息表,必填内容包括sample_name、sample_title、bioproject_accession、organism、host、isolation_source、collection_date、geo_loc_name,其中sample_name必须与测序数据文件前缀一致,可以是纯数字格式。填写格式可参考下图。
4. 提交原始数据至SRA
https://www.ncbi.nlm.nih.gov/Traces/sra_sub/sub.cgi,选择 NCBI PDA入口,填写个人信息后,点击 create new submission >> New submission。
-
SRA METADATA:填写文库相关信息,内容及格式可参考下图,其中双端测序数据的文件名(包括后缀)应写两个。
- FILES:单个样本数据量超过10Gb以上或者数据太多,需要用其他方式上传,比如aspera,勾选aspera上传选项后,会在下方出现“Select preload folder”。下载aspera.openssh文件至本地,然后上传至服务器。根据页面提示方法,运行下方命令,即可完成上传。
~/.aspera/connect/bin/ascp -i aspera.openssh -QT -l100m -k1 -d reads.path subasp@upload.ncbi.nlm.nih.gov:uploads/husy_163.com_1f3LOev0
数据上传比较慢,等数据都上传完成后,再点击“Select preload folder”,即可出现上传好的原始数据,点击“Use selected folder”,继续即可。
注意:数据上传完成之后,NCBI还需要一段时间对数据进行processing,若页面提示"error"(比如提示数据文件格式有问题),只能发邮件联系sra@ncbi.nlm.nih.gov,数据上传成功会出现"processed"标志,每个样本会对应获得一个SRR编号。SRA处理邮件的效率还是很高的。