生信星球转录组培训第一期Day3--善良土豆

端午安康

今天转录学习第三天,开始进入实战的第一步----数据查找和下载

今天要被自己蠢哭了,自己挖坑自己跳,还给自己埋了2个多小时,真的不夸张,要被自己气死了!

走起!!!

数据从哪里来?

如果我们想利用已发表的数据进行分析和数据挖掘,首先第一步要找到和你做的方向相关的文献,然后在文献中寻找其公开数据的Accession ID
实战文献为:RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells
一般Accession ID会写在每篇文章的材料方法中,请仔细查找,关于GEO数据库,其数据存放分为四种类型:GSE,GSM,GPL,GDS
-GSE:将整个项目的一系列样本和平台关联起来,比如GSE17708(都是GSE+数字)
GSE=GPL+GSM
-GSM:对应一个样本的数据,只能对应一个平台,表示每个样本操作环境
-GPL:平台信息,包含微阵列或测序平台简要描述(GPL+数字)
-GDS:同一个平台的数据集
关于数据库详细的内容请参考小泽优秀作品:生物数据库ID,让我深入了解你

GEO数据库官网:官网 GEO官网

GEO首页

输入GSExxxxx后如下图,同时该页面的网址也可以作为快速查找GSExxxxx的快捷页面,只需要修改后面的数字为你目标数字即可


快速查找:(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE17708)

此页面有实验材料,方法等一些列关于实验组分的内容,可以帮你快速了解这篇文章数据结构。接下来我们将页面下拉,如下图


寻找SRA,得到SRPxxxxx
对于这篇文章的GSE ID如下图,基于以上步骤通过这篇GSE_ID最终可以得到SRPxxxxx
GSE

停!

说明:不是所有的文章都是以asscession GSExxxxx在文章中呈现,
如这篇: RNA-Seq Transcriptome Profiling of Upland Cotton (Gossypium hirsutum L.) Root Tissue under Water-Deficit Stress

PRJNA

搞什么事情和之前说的不一样,那么我们就将这个号输入到NCBI中最终也将得到SRPxxxxx,与其说我们在某个文章中找GSExxxxx或是什么其他的ID,倒不如我们找一句描述内容:Read count data was depositedThe RNA-seq data is available at the这一类表示数据已公开的ID就ok啦。另外!更说白了,我们最终就是要找SRPxxxxx
-SRA:Short Read Archive
它的内容主要包括了原始数据、实验项目、实验设计、测序平台、样本数据等信息,同时具有一定的结构:
第一级:课题Studies:用SRP表示实验项目,一般一个study会包括多个experiments;
第二级:样本Samples: 用SRS表示生物原材料的信息,每一个样本都有自己的属性;
第三级:实验Experiments: 用SRX表示数据是怎么产生的,包括特定样本的测序文库信息;
第四级:数据Run:用SRR表示利用某种测序手段得到的原始数据。

找到SRPxxxxx后我们点击进去,这里存储了整个研究项目的各种信息,可以看到用的什么测序仪,多少run,数据量多少。为了更进一步去了解每个特定的SRR信息,我们要把它们导出(按箭头提示操作):啥是run,我理解的就是Samples数,这篇文章ck组+处理组+生物学重复共有16个样本

1-4操作

随后如下图:

第一篇文章呈现结果
该图里面呈现了PRJNA_ID,Illumina HiSeq 2000,CDS,PAIRED,Tissue,SRA,数据大小等信息,并且展现了16 Runs,那这16 Runs都是什么呢,请回上面快速查找页面查看。
第二篇文献呈现结果
除了第一篇文章呈现的结果外,还包含了上面所说的SRP,SRA,SRA,SRX信息。

好啦,要开始下载数据啦,选择你要分析的组下载喽!!!

Accession List

点击Accession List后下载成为txt文件,但这里建议:
Windows推荐notepad++:https://notepad-plus-plus.org/
mac推荐sublime:https://www.sublimetext.com/

notepad++

太好啦!数据下好了,走咱去linux下玩去

-创建项目目录

前面已经建立好rnaseq项目目录
mkdir -p $HOME/rnaseq/{raw,clean,ref,qc,align,count,script}

-将下载SRRxxxx复制粘贴到linux中,使用cat命令

cat >ssr.ids
SRR1039521
SRR1039520
SRR1039517
SRR1039516
SRR1039513
SRR1039512
SRR1039509
SRR1039508
###新一行 Ctrl+c
###建立好后看看一样不
cat ssr.ids

-开始下载数据

使用conda,使用方法请回看学习小组Day3笔记--善良土豆

conda config --remove-key channels # 可以选择性忽略
conda config --add channels r 
conda config --add channels conda-forge 
conda config --add channels bioconda
然后创建一个专属rnaseq的分析环境,然后安装工具包sra-tools,使用这个工具包中的prefetch软件下载数据,最后激活环境,查看prefetch软件是否安装成功
conda create -n rnaseq python=2 sra-tools -y
# 创建好后激活
conda activate rnaseq ####如果激活失败,请用source activate rnaseq
# 测试一下prefetch是否可以使用
prefetch --help#出帮助文档即可,出来就是成功
prefetch直接加上上面下好的SRR号就可以直接下载数据喽!
但是这种方法下载速度咋那么慢呢,那咱就想办法让它提速!
请继续学习小泽又一优秀作品来吧,加速你的下载
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安装
bash aspera-connect-3.7.4.147727-linux-64.sh
# 然后cd到根目录下看看是不是存在了.aspera文件夹,有的话表示安装成功
cd && ls -a
# 将aspera软件加入环境变量,并激活
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 最后检查ascp是不是能用了
ascp --help
ascp安装成功后,prefetch就会默认将下载方式从https转移到fasp,说明开启加速模式
via fasp

我们可以这样一步一步的下完每一个数据,但是这样好麻烦,那么我们继续提升便捷方法,循环

cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done

while循环,标准写法就是while read ...;do ...;done

如果我们担心中间出现一次服务器掉线,下载就会中断。为了避免这种情况导致的数据不完整,我们可以将任务放到后台,方法如下:

一是:使用nohup 加上面的那一行命令,然后结尾加一个&

nohup cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done &amp

二是:直接运行那一行命令,然后先手动ctrl + z 将任务挂起,然后输入bg 1 ,即运行刚刚挂起的程序

 cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done
 Ctrl + z
 bg 1

哦,对了,差点忘记,小泽推荐文献下载网站:

https://sci-hub.tw/10.1371/journal.pone.0099625,其实这个网站之前有关注过,我只是在有的资源下不下来的时候才会用它解决,很不错!!

sci_hub

今天先到这吧,我还有数据没下下来呢,明早要早起去下数据,今天的坑就在于觉得自己行了,echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc加粗记住你了,搞错了,当发现问题时,先自己研究一下,实在研究不明白,全部重头来,就会找到问题!晚安,导图也明天弄

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容