上传地址:https://www.ncbi.nlm.nih.gov/geo/info/submissionftp.html
一、登录
注册/登录:
第三方账户登录,似乎都需要科学上网?
选择我熟悉的谷歌账户,即可登录。
进入自己主页,编辑和人信息,这些信息将在GSE dataset 界面展示。
点击Preview
预览查看效果:
点击New submition
开始数据提交。
二、准备数据
根据数据类型点击对应的链接,这里我们上传高通量数据:
点进去的页面内容需要你仔细阅读:https://www.ncbi.nlm.nih.gov/geo/info/seq.html
需要准备的文件包括三部分:
1. metadata spreadsheet
即元数据,注释数据,模板从 seq_template 中下载
可根据文件内的两个示例表格进行填写:
需要填写的地方将鼠标放在表头上会有提示。
这里又包括几个需要填写的部分:
a. SERIES
该批数据的大体描述,其中summary部分填的内容较多,基本上是paper的摘要内容。
b. SAMPLES
所有样本的注释信息,包括样本名(sample1, sample2 ...)、ID、组织类型、细胞类型、物种类型、分组信息、临床信息、测序的分子、原始数据文件名、处理后的文件名等等。
c. DATA PROCESSING PIPELINE
提供原始数据的每一处理步骤的软件、版本及参数、使用的参考基因组、处理后的文件的格式和内容。
d. PROCESSED DATA FILES
处理后的文件名、文件类型及md5码
e. RAW FILES
每个原始数据的注释数据,文件名、数据类型、md5码、测序平台、单双端
f. PAIRED-END EXPERIMENTS
填写配对的数据,当一个样本产生两个(双端数据)及更多( SOLiD)的数据时需要填写。
2. 原始数据
所有原始数据放到统一文件夹:raw_data_files
3. 处理后的数据
所有原始数据放到统一文件夹:processed_data_files
4. 补充文件
SERIES 中填写的 supplementary file,比如所有样本的表达谱: Normalized_log2TPM_matrix.txt。
整理好的文件结构大概是这样的:
而上一级文件夹为:geo_submission_RNAseq
,即geo_submission+数据类型。
三、数据传输
还是这个页面往下滑:https://www.ncbi.nlm.nih.gov/geo/info/seq.html
点进去之后仔细阅读所有内容,会告知服务器地址、个人文件存储地址、登录名、及密码。
最下面有上传帮助:
以Linux系统为例:
一开始我选用的是sftp
进行上传,上传速度可达2~3 M/s, 但这个命令只能在命令行界面手动操作,而且总是与服务器断开,根本用不了!折腾了我一段时间(手动记录断掉的位置,手动重新上传。。。。)
后来选用了lftp
进行上传,最大的优点是可以将传输命令写成一行命令,可以实现批量上传。
但是网速却只有200来k/s。如果一次性传输整个文件夹,500G需要传输30天!
大文件主要就是原始fastq文件了,因此可以将每一个fastq文件都生成一个传输命令,然后递交服务器,就不用担心会断网了。
这样实现了100多个fastq文件同时上传了,弥补了网速慢的问题!
一个2G的文件也只需要3个多小时就能上传,并行多少就取决于服务器支持同时运行多少个任务了。
用这种方法使得之前大半月没有上传好的数据一夜之内就上传好了,办法总比困难多哈哈~
单个文件上传的代码:
lftp -c 'open ftp://geoftp:rebUzyi1@ftp-private.ncbi.nlm.nih.gov; cd uploads/jiahaowongg@gmail.com_ERs7cgUA; put /sibcb2/bioinformatics2/wangjiahao/GDM/RNAseq/submit_data/geo_submission_RNAseq/raw_data_files/17A020374_S21_L004_R2.fq.gz .; quit'
信息替换一下就好了,文件路径使用绝对路径。
四、提交审核
还是刚才那个页面,点击“Notify GEO”,
填写数据信息,包括服务器文件地址和开放日期,及其他的确认信息。
点击Submit
就完成了提交,之后会进入提交信息界面,在这里可以修改你想要收到邮件的邮箱,默认使用的注册使用的邮箱,比如我就是谷歌邮箱,我不常用,因此换成了自己的个人常用邮箱。
很快GEO团队会自动发送提交提醒的邮件:
告知五个工作日之内会处理,但我晚上提交的,一两个小时之后就返回了,刚好赶上他们的上班时间,也可见效率之高。
如果有文件没有上传完整或者缺少其他需要的信息,GEO团队会邮件告知你,如果没有问题则会返回GSE号。
对于未开放的数据集,可以点击“Reviewer access”,即可获取私人访问码,供审稿人和合作者查看。
收到GSE号的那一刻:芜湖~ 成功了~ 我也是有GSE号的人了!