生信星球转录组培训第一期Day3——卖萌哥

闲言碎语

从今天开始转录组学习进入正题啦。
要重现的文章是

RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells

虽然不是做植物的,但是大体上都是相通的嘛。
数据存放在NCBI的GEO数据库,现在铺天盖地的都是关于GEO数据库挖掘的教程,比如我树就有GEO的教程,其他平台就更多了,不胜枚举。但是我好像似乎很少接触这个数据库(几乎没有),NCBI用的比较多的就是SRA数据库,有的时候用Taxonomy查一查物种分类信息,年轻的时候(本科二年级)还用过EST数据库(现在都已经被NCBI的别的数据库吞并掉了。官网显示:The Nucleotide database will include EST and GSS sequences in early 2019. )。生信这一行要学的东西很多,会的越多就会发现不会的越多,没法以有限的生命去探索无限的生信的,选择自己感兴趣的方向就好了。

下面提供一个豆豆写的介绍各种数据库的文章,写得可好了,值得推荐:
💗点💗我💗看💗G💗E💗O💗数💗据💗库💗介💗绍💗

你也是~


皮完了开始正题。

RNA-seq数据存放地址

根据文章介绍,数据存放在了GEO数据库的编号是GSE52778.
传送门:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778

这里讲个小技巧:观察一下上面这个链接,是不是搜的GSE52778在最后面?所以如果你想搜换一个编号,那就把acc=后面的编号替换一下就好了。chrome有一个很好用的功能,在右上角的 设置管理搜索引擎其他搜索引擎,点击添加,按照下图的模式填写内容:

添加搜索引擎

输入geo并按一下空格,就会启动使用GEO数据库搜索,这时候只要把要搜的编号打进去就好了,就能直接跳转到你输入的编号的GEO数据库位置了。
使用GEO数据库搜索

我们要的原始数据呢就放在这里啦:


到SRA数据库下载原始数据

什么嘛,原来又绕回到SRA数据库去了。


SRA数据库里有16个数据

野路子方法

点进来发现有16个数据,一般多个数据的序号都是连着的,按照我以前的彪悍做法呢,就直接写个循环都下载了,不要的下完了删掉。比如这里的SRR编号是SRR1039508 ~ SRR1039523刚好16个。

脚本如下:

# 直接用wget下载,-c参数是断点续传,可以在网络断开之后第二次从断开的地方继续下载,否则会从头开始下载噢
list={08..23}
for i in $list 
do
  wget -c ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done

# 用axel下载。前提是要先安装。我知道ubuntu系统是可以安装的, 别的系统就不知道了。安装需要root权限,也可以用源码或者conda安装.
# sudo apt-get install axel

list={08..23}
for i in $list 
do
  axel ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done

记得用nohup把脚本挂后台下载。比如把这个脚本命名成dataDown.sh

nohup bash dataDown.sh &

你问我ftp后面这一串文件夹是怎么找到的?
无他,唯手熟尔。你要是天天到SRA数据库捞数据并且善于观察和记忆的话你也可以驾轻就熟的。

以上两种方法二选一。但是这毕竟是野路子,不管是工具还是过程。而且wget有下载不完全的风险,并且下载速度也不敢恭维。axel是一个多线程的下载工具,下载起来会比axel快一些,但是有很多站点是不支持axel下载的。

那正确的方法是什么呢?

正经方法

查看GSE的介绍:


四组处理

一共四组,每组四个生物重复。这到底用啥处理的?翻译一下了解一下:

1)没有治疗;
2)用β2-激动剂(即沙丁胺醇,1μM,18小时)处理;
3)用糖皮质激素(即地塞米松(Dex),1μM处理18小时);
4)同时用β2-激动剂和糖皮质激素治疗

本次学习小组用对照组和Dexamethasone(第三组)进行学习。

image.png

点击如图的位置打开一个新的界面
image.png

根据描述勾选所需的数据,点击accession list按钮下载
用notepad++打开之后是这样的:


accession list

创建工作目录:

mkdir -p ~/rnaseq/{01raw,02clean,03ref,04qc,05align,06count,07script}

加上编号比较方便快速cd到想要去的文件夹。

软件安装

接下来用conda安装所需的软件
conda的安装教程可以参考我的这篇:
conda的安装与使用(2019-5-16更新)
(这篇简书已经有四万八千多的阅读量了……把我自己都吓到了)

# 创建一个新的用于rnaseq的环境,并安装sra-tools
conda create -n rnaseq sra-tools 
# 创建好后激活该环境
conda activate rnaseq

根据豆豆的这篇文章:来吧,加速你的下载
get 如何配置aspera来提高数据的下载速度

2021-05-26 update: 也可以用conda来安装aspera: conda install -c hcc aspera-cli

mkdir ~/biosoft
cd ~/biosoft
wget -c http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar -zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
chmod 777 aspera-connect-3.7.4.147727-linux-64.sh
bash chmod 777 aspera-connect-3.7.4.147727-linux-64.sh

安装过程中会有提示的:

Installing Aspera Connect

Deploying Aspera Connect (/home/xxx/.aspera/connect) for the current user only.
Restart firefox manually to load the Aspera Connect plug-in

Install complete

到家目录用ll -a查看是否存在一个.aspera的隐藏文件

cd ~
ls -a
tree .aspera

内容还挺丰富,tree的结果展示出了很多的文件及文件夹,就不放了。
~/.aspera/connect/bin/ascp加入到环境变量中,以全局调用。

再讲一个小技巧。
在做生信的过程中难免装很多很多的软件,如果每次都把软件的文件夹加入到$PATH中会让$PATH变得很乱。那怎么办呢?
解决办法是设定一个特定的文件夹叫softlink,把它加入到~/.bashrc中,如果所安装的软件只有一个程序的话,在softlink中创建一个该程序的软连接即可全局调用该软件啦。

mkdir ~/softlink
echo 'export PATH=~/softlink:$PATH' >> ~/.bashrc
# 或者用vim编辑

cd ~/softlink
ln -s ~/.aspera/connect/bin/ascp .

这种方法只适用于单个可用程序的情况,如果安装的是一个文件包,里面有很多的脚本和程序可以用的话,还是老老实实的把整个文件夹加入到$PATH中噢。具体的方法我就不写了,可以去看豆豆的那一篇文章。

下载数据

因为我用的是windows平台,连接服务器用的是xshell,我可以直接将刚刚下载到本地的
SRR_Acc_List.txt通过拖动,拖到服务器上。但是需要用安装一个叫lrzsz的程序

apt-get install lrzsz

刚刚搜了一下,可以用源码安装lrzsz的。教程在此:Linux下rz/sz安装及使用方法

正式开始下载啦:

cd ~/rnaseq/01raw
# 直接把文件拖进终端
echo 'cat SRR_Acc_List.txt | while read i ;do prefetch $i -O `pwd` ;done' > dataDown.sh
time bash dataDown.sh

下完了 看了下时间

real  7m24.571s
user  0m49.040s
sys  2m22.474s

真香!


下载完成

下好数据啦!那么今天的任务就结束啦~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容