生信星球转录组培训第一期Day4——卖萌哥

今天开始正式进入RNA-seq分析啦~

软件安装

由于昨天就已经创建好了新的conda的环境,所以今天只要把用到的软件都装一下就好了。

把要安装的软件分一下类型:

数据格式转换

  • sra-tools: 这个软件用于把NCBI里下载的.sra格式的数据给转换成fastq。用到的工具是里面的fastq-dump

数据质控

数据质量的好坏是数据分析中的关键,所谓“garbage in, garbage out”,如果一开始的数据是有问题的,后续再怎么分析都是徒劳。
那数据会存在什么样的问题呢?
主要是二代测序增加进去adapters序列,和测序中的低质量数据。它们会影响后续的比对、定量准确性,更会影响下游分析,因此要先生成质量报告了解一下数据的质量,如果质量不好的话要把不符合要求的序列给过滤掉。
所以这一块分两步,1. 生成质量报告2. 过滤不符合要求的序列

  • fastqc & multiqc: 用于生成质量报告。fastqc能对每个样品生成单独的质量报告,而multiqc则是可以把多个样本的fastqc结果整合到一个文件中,这样比较方便全面的了解和对比多个数据之间的质量情况。
  • fastp: 由陈实富大佬写的新手友好型质控软件,只要设置输入文件和输出文件就好了,推荐给各位胖友。之前写过一篇关于这个软件的简书文章:用fastp对转录组数据做QC
  • trim_galore & trimmomatic 另外两个用于做质控的软件。为了防止质控软件本身的算法原因导致分析结果的误差,条件允许的情况下建议用不同的质控软件来处理数据进行对比,取结果好的进行下游分析。

比对(mapping)

有参转录组和无参转录组分析的本质区别就在于有没有这个“参”。参是什么呢?是reference,中文世界一般叫“参考序列”。而我研究生期间做的植物基因组,就是在做这个“参”。
比对的软件有很多种,有基于基因组比对(starhisat2)、基于转录组比对(bowtiebwa)、不基于比对(salmon)
我目前用bwa比较多,别的只是知道,没怎么用过。

定量

  • subread 用的是其下的featureCounts这个小程序。这一块我不太了解,这也是我参加这次转录组学习小组的原因~

用conda安装软件

# 激活专门用于RNA-seq分析的conda环境
conda activate rnaseq
# 安装软件
conda install fastp fastqc multiqc trim-galore trimmomatic hisat2 bowtie2 subread salmon

因为我目前人在Singapore,所以用conda下载软件还挺快的。有的小朋友习惯在conda install的时候加-y参数,这样就只要等着它装好就好了,不需要再手动去确定是否安装这些软件。但是也有个问题,它在整个安装过程中不会给任何的提示和输出,就只能看到solving environment 的状态栏在“爱的魔力转圈圈”,当安装很多软件或者网络不好的时候会特别没有安全感。

数据格式转换

我想想我一般是怎么写这个的:

#!/usr/bin/env bash
list="SRR1039509.sra
SRR1039512.sra
SRR1039513.sra
SRR1039516.sra
SRR1039517.sra
SRR1039520.sra
SRR1039521.sra"

for i in $list
do
  fastq-dump --gzip --split-3 ${i} -O ../01raw
done

我的list是通过下面的命令生成的:

ls *.sra | xargs -l

而豆豆提供的脚本是这个画风:

raw=~/rnaseq/raw # 这个路径根据个人需求进行修改即可
cat $raw/srr.ids | while read i ;do
echo $i
# time fastq-dump --gzip --split-3 -A $i $raw/${i}.sra -O $raw;
done

确实看起来比我高明得多呢。学习了学习了。用time这个命令计算运行时间是一个很好的习惯。

先用井号注释掉了真正要运行的命令,这在写脚本的过程中是个好习惯,因为有时自己会搞错变量(比如这里的i) ,于是用echo $i可以先看看是不是真正要用的,先运行一下看看结果

把脚本写进一个叫做fastqdump.sh的文件,然后nohup运行。
(不要随便起个名字噢,不然过段时间就忘了这个当时写了是做什么用的了呢,后患无穷,整理起来特别头疼。)
我用nohup主要是它可以保留软件运行过程中的日志和报错,当然不用nohup也可以做到这点:

bash fastqdump.sh 1>fastqdump.log 2>&1
# 或者
bash fastqdump.sh 1>fastqdump.log 2>fastqdump.err

1>fastqdump.log 表示将结果的正确日志文件输出到fastqdump.log中,2>&1 这个2表示错误日志,将它也合并到1的正确日志中。

当然,如果不想要错误信息,可以把它丢到linux"黑洞"中去: 2>/dev/null

下载参考序列

根据文章介绍,所用的reference是hg19的版本。因此就下载这个版本的genome和gtf数据备用。

wget -c http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_19/gencode.v19.annotation.gtf.gz

太晚了。明天继续写。

Hans Chen
2019年6月9日于 Westwood Hostel, Jurong West Ave. 5, Singapore.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容