会了GEO数据下载,来看看怎么上传吧

刘小泽写于2020.8.12

1 注册NCBI GEO账号

先注册NCBI账号,在:https://www.ncbi.nlm.nih.gov/

然后注册GEO账号,在:https://www.ncbi.nlm.nih.gov/geo/submitter/

GEO可上传的数据类型种类主要集中在芯片和高通量数据,比如芯片数据的四大主流:Affymetrix、Agilent、Nimblegen、Illumina,高通量的RNA-Seq、ChIP-Seq、ATAC-Seq等。另外还有RT-PCR、SAGE数据可以上传

2 提交高通量测序数据须知

重点需要提交三部分:

  1. 实验总览(metadata spreadsheet):参考样本 https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx
  2. 处理过后的数据(processed data files):需要注意
    • 不可以提交中间过程的比对文件(如BAM、SAM、BED),但如果结果只有这样的比对文件,可以写信给他们询问是否合格
    • 一般来说,提交什么类型的数据取决于实验类型:
      • 表达量相关的数据:例如 genes, transcripts, exons, miRNA等表达量,需要原始表达矩阵 或 标准化后的表达矩阵(例如 Cufflinks, Cuffdiff, DESeq, edgeR的结果文件)。可以每个样本一个文件,也可以使用一整个表达矩阵,但需要包含全部基因和全部样本的信息(不可以只用差异基因)
      • ChIP-Seq数据:必须包含有关于peak丰度的文件(如WIG, bigWig, bedGraph)
    • 所有处理过的文件描述都必须体现在metadata文件中
    • 如果提交了WIG, bedGraph, GFF, GTF文件,格式需要参考: UCSC file format FAQ
  3. 原始数据(raw data files): GEO的原始数据也是会提交给SRA
    • 必须是包含reads、质量值的原始fastq格式,不符合要求的数据会直接从GEO系统中删除
    • 如果测序数据使用了barcode(例如10x Genomics, Drop-Seq, InDrops的数据),可以提交不经过拆分的multiplexed files;对于其他多路复用(Multiplexed)的数据来说,必须要先经过demultiplex操作,将样本分开
    • PE测序数据:一般每个run会产生两个数据(特殊情况下,每个run中的序列和质量值文件是分开的,也就是产生了4个文件)
    • MD5Sum:推荐使用MD5验证数据,方法是:
    • 关于数据压缩:为了加快传输,可以适当将数据压缩,但不强求。可以使用gzip、bzip2(后缀是.gz.bz2) ,但不要压缩二进制文件(如BAM、bigWig、bigBed),也不要上传ZIP文件

3 GEO接受的数据与不可接受的数据

GEO可接受的

基因表达、基因调控、表观以及其他功能基因组学研究,例如

GEO不可接受的

4 重头戏-实验总览(metadata spreadsheet)

参考样本: https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx

总共包含7大块

4.1 SERIES

与文章相关的内容

  • 标题(title)
  • 摘要(summary)
  • 实验设计(overall design)
  • 参与者(contributor):可以写多个
  • 附件(supplementary file)
4.2 SAMPLES

与样本信息相关的内容

  • 样本编号(Sample name)
  • 样本名称(title)
  • 样本来源(source name)
  • 物种(organism)
  • 样本描述(characteristics: strain、tissue、age、genotype、cell line、treatment)
  • 与该样本相关的文件(molecule、processed data file 、raw file)
4.3 PROTOCOLS

样本的实验操作以及建库流程,简单描述即可

4.4 DATA PROCESSING PIPELINE

数据处理描述,比如基因组版本是什么、怎么比对、怎么过滤、怎么找peaks、怎么定量

4.5 PROCESSED DATA FILES

数据处理后的文件名称

  • file name
  • file type:除了raw count数据,其余可以统一写成abundance measurements
  • file checksum
4.6 RAW FILES
  • 原始数据名称(file name)
  • 文件类型(file type):比如fastq
  • md5校验(file checksum)
  • 测序仪器型号(instrument model)
  • 单端or双端(single or paired-end)
4.7 PAIRED-END EXPERIMENTS

如果使用了双端测序数据,需要列出各自的名称

  • file name 1
  • file name 2

5 准备工作结束后,可以开始上传

上面的实验总览(metadata spreadsheet)处理过后的数据(processed data files)、**原始数据(raw data files) ** 都准备好,就可以开始准备上传了

学习如何使用FileZilla进行上传

首先会看到自己的上传目录,一会将用到

然后设置FileZilla:

  • host (ftp-private.ncbi.nlm.nih.gov)
  • username (geoftp)
  • password (rebUzyi1)

此时会发生报错,忽略它

修改Remote site,然后回车连接:

最后就可以将本地数据上传到GEO指定位置了

Tips:为了避免FileZilla上传过程出现中断,可以设置断点续传

6 最后,提醒GEO数据上传完成

并且会提示再核实一遍信息,没有问题的话5个工作日内就会进行审核

Tips:补充

来自:https://www.ncbi.nlm.nih.gov/geo/info/submissionftp.html

  • 在上传前,首先新建一个主目录,例如:geo_submission_august17 ,然后把所有的要传送的数据都放里面。如果paper中包含了多个组学数据(例如同时做了ChIP-Seq、RNA-Seq),可以在主目录下新建不同组学的子目录,例如:geo_submission_august17/ChIPseq

  • 如果总文件大小超过了1T,需要提前联系GEO

  • 对于Mac、PC用户,推荐使用客户端,如Filezilla;对于LINUX/UNIX用户,推荐使用ncftplftp命令

  • GEO的FTP server登录:


  • 登录后,一定要去到自己的上传目录下,再将主目录拖拽上传

  • 最后通知GEO的时候,也要提醒他们自己上传的目录名字是什么【在数据传完之前,不要通知GEO】。如果不通知,两个星期后数据就会被删除

  • 文件可以压缩为gz或bzip2【但二进制文件不能压缩】,也可以用tar打包,但千万不要用ZIP

  • 文件名中只能存在:alphanumerals [A-Z, a-z, 0-9], underscores [_] and dots [.]


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349