如何上传数据到GEO数据库

其实官网说的蛮详细的,整个过程其实就是用FileZilla上传数据后(Completed metadata worksheet;Raw data;Processed data)后,点通知GEO,然后填写上传的目录即可。
另外,这个教程写的也不错超详细的GEO数据上传攻略,手把手教学
不过我补充几个注意点:
1、使用FileZilla上传数据的时候要注意,先设置你的工作目录,按回车最好再新建一个文件夹才能够成功连接上去。这个工作目录再你用账号登陆进去的时候,点击上传数据可以看到,一般是uploads/your_special_name。
2、md5码获取。md5码是文件的唯一编码,是防止你上传数据丢包,他们检验一下md5一致的话,说明文件上传比较完整。怎么获取官网写过了,简单而言在unix/linux环境下可以用md5sum *.gz>../tpm_md5.tsv批量获得文件的md5码。
3、原始文件注意paired-end测序的问题,在填写metadata worksheet的时候,下载的模版里面有例子的,填写之前仔细参考一下。
4、建议使用压缩的文件,请提前准备好fastq文件,最好是压缩后的fastq.gz文件。强烈建议在填写metadata worksheet文件之前把文件准备好并上传,这样你填好了也上传好了。记得不要用无线网传数据。
5、还有中办法用 Aspera command-line去上传,官网也写了,但是要写信到sra@ncbi.nlm.nih.gov问他们要一个sra-1.ssh.priv文件,写信的时候说明是要上传到GEO的,然后用以下代码,我要了这个key文件但是我没用他这个方法,还是建议用上述方法,以下仅供参考。

Command line is as follows:

ascp -i <path to key>/aspera_keys/sra-1.ssh.priv -QT -l 100m -k1 -d <folder-with-files> [asp-sra@upload.ncbi.nlm.nih.gov:incoming](mailto:asp-sra@upload.ncbi.nlm.nih.gov:uploads/your_special_name)

Sometimes when Aspera is fed too many files at once it gets interrupted, therefore it is useful to script a loop that serves one file at a time:
for F in ./*.bam
do
ascp -i -QT -l 200m -k1 $F -i <path to key>/aspera_keys/sra-1.ssh.priv -QT -l 100m -k1 -d <folder-with-files> [asp-sra@upload.ncbi.nlm.nih.gov:incoming](mailto:asp-sra@upload.ncbi.nlm.nih.gov:uploads/your_special_name
done
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 刘小泽写于2020.8.12 1 注册NCBI GEO账号 先注册NCBI账号,在:https://www.ncb...
    刘小泽阅读 8,721评论 0 9
  • GEO:Gene Expression Omnibus当文章有NGS data 投稿时候要把你的原始data 上传...
    Ternq8阅读 9,828评论 0 4
  • 写在前面向GEO数据库中上传高通量测序的文件可能是一个人研究生阶段必须要经历的过程,如果不太了解高通量测序也不具备...
    巩翔宇Ibrahimovic阅读 12,169评论 1 8
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 12,200评论 16 22
  • 创业是很多人的梦想,多少人为了理想和不甘选择了创业来实现自我价值,我就是其中一个。 创业后,我由女人变成了超人,什...
    亦宝宝阅读 5,857评论 4 1

友情链接更多精彩内容