2018-10-15

生信学习笔记

linux部分功能

查看文件夹

linux查看文件夹

工具 选项 可以设置鼠标功能 可以设置右键粘贴

双击这个窗口可以再打开一个窗口 互不干扰

双击



Rnaseq数据挖掘

观看陈魏学视频 了解RNAseq 

测序技术介绍及基本流程

我们能做什么:火山图 热图差异基因分析

                          蛋白互作图

                           kegg

                           GO          生物学功能和表达位置

                           泡泡图 分析结构差异

这几个图回头还得再好好研究研究 

学习材料:简书原创10000+生信教程大神给你的RNA实战视频演练

实例分析

安装conda 

https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/  下载需要的版本(conda2 linux版本)

更改镜像 翻墙也行应该

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda

conda config --set show_channel_urls yes

安装软件

创建一个软件安装环境  放置污染大环境 

conda create -n rna python=2 # 环境名字是rna 可以自己随便改别的 

查看conda环境 conda info --envs

工作时候载入环境source activate rna

安装软件

质控 

fastqc 查看fastq文件质量

multiqc 合成不同样本的质控报告 一起查看

trim-galore 过滤低质量数据

trimmomatic, cutadapt 好像没用到

比对

star, hisat2(这个最好), bowtie2, tophat, bwa, subread

计数

htseq, bedtools, deeptools, salmon

https://bioconda.github.io/recipes.html 这个地址可以查看conda是否有你要安装的软件

conda安装成功后  以下是安装RNAseq用到的软件的代码

conda install -y sra-tools

conda install -y trimmomatic

conda install -y cutadapt multiqc

conda install -y trim-galore

conda install -y star hisat2 bowtie2

conda install -y subread tophat htseq bedtools deeptools

conda install -y salmon

转录组流程

1. 下载sra数据

NCBI可以下载SRR list  里面有SRR号码   一个一排  也可以新建一个SRR_Acc_List.txt文档  也是一个号码一行。这个list是让代码读取SRR号码以在网上下载用的

下载SRA数据代码

wkd=/home/zhaowei/project/airway/ #设置工作目录

source activate rna  载入工作环境

cat SRR_Acc_List.txt | while read id; do (prefetch ${id} &);done

ps -ef | grep prefetch | awk '{print $2}' | while read id; do kill ${id}; done #没太看懂这个 prefetch是下载SRA用的

2.将SRA格式转成fastq格式

用fastq-dump软件

单个文件转换

nohup fastq-dump --split-3 --skip-technical --clip --gzip $i &   #把$i换成文件名

批量转换(循环)

for i in $wkd/*sra

do

        echo $i

        nohup fastq-dump --split-3 --skip-technical --clip --gzip $i & 

        done     # 循环代码没看懂 nohup可以让进程在后台运行 不影响前台操作

因为现在大部分原始数据为双端测序 即从3和5两端测序  所以一个SRA文件可以转换成两个fastq文件即_1和_2,--split-3 这个参数就是转换双端测序文件用的  如果是单端测序文件  就不加这参数

生成的文件格式例子:SRR1039522_1.fastq.gz    SRR1039522_2.fastq.gz

3.数据的质量检查

ls *gz | xargs fastqc -t 10 # 用fastqc进行检查 并且生成一个html的报告  用打开文件夹的那个按钮打开查看

linux查看文件夹的按钮

multiqc ./   #整合生成的质控报告 html结果查看方法同上

4.过滤低质量数据

mkdir $wkd/clean

cd $wkd/clean

ls /home/jmzeng/project/airway/raw/*_1.fastq.gz >1

ls /home/jmzeng/project/airway/raw/*_2.fastq.gz >2

paste 1 2  > config 

#把两个fastq.gz文件赋值   粘贴到config中并形成2列

用trim_galore过滤

source activate rna

bin_trim_galore=trim_galore #把bin_trim_galore赋值  下面有代码

dir='/home/zhaowei/project/airway/clean'   #输出文件夹 自己设定

cat $1 |while read id

do

        arr=(${id})

        fq1=${arr[0]}  # 如果fq1在第二列  把0换成1

        fq2=${arr[1]}  #道理同上

nohup $bin_trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired -o $dir  $fq1 $fq2 &

done

source deactivate #退出环境  也可以不退

#以上代码可以保存成 .sh结尾的文件 下次用bash一下就行   不用总写了  vim进去改改就行

5.比对

实际用时候感觉用一个软件就行 hisat2

1.运行单个样本 测试

mkdir $wkd/test

cd $wkd/test

source activate rna

ls $wkd/clean/*gz |while read id;do (zcat ${id}|head -1000>  $(basename ${id} ".gz"));done

id=SRR1039508 # id写成需要的id

hisat2 -p 10 -x /public/reference/index/hisat/hg38/genome -1 ${id}_1_val_1.fq  -2 ${id}_2_val_2.fq  -S ${id}.hisat.sam #注意看软件说明书 输出的是sam还是bam 这里写的只是我们自己起的名.sam 线程分配的数字可以改(-p 10那地方) 如果只用一个软件比对下面就不用了

subjunc -T 5  -i /public/reference/index/subread/hg38 -r ${id}_1_val_1.fq -R ${id}_2_val_2.fq -o ${id}.subjunc.sam 

bowtie2 -p 10 -x /public/reference/index/bowtie/hg38  -1 ${id}_1_val_1.fq  -2 ${id}_2_val_2.fq  -S ${id}.bowtie.sam

bwa mem -t 5 -M  /public/reference/index/bwa/hg38  ${id}_1_val_1.fq  ${id}_2_val_2.fq > ${id}.bwa.sam

2.批量代码

cd $wkd/clean

ls *gz|cut -d"_" -f 1 |sort -u |while read id;do

ls -lh ${id}_1_val_1.fq.gz  ${id}_2_val_2.fq.gz

hisat2 -p 10 -x /public/reference/index/hisat/hg38/genome -1 ${id}_1_val_1.fq.gz  -2 ${id}_2_val_2.fq.gz  -S ${id}.hisat.sam

subjunc -T 5  -i /public/reference/index/subread/hg38 -r ${id}_1_val_1.fq.gz -R ${id}_2_val_2.fq.gz -o ${id}.subjunc.sam

bowtie2 -p 10 -x /public/reference/index/bowtie/hg38  -1 ${id}_1_val_1.fq.gz  -2 ${id}_2_val_2.fq.gz  -S ${id}.bowtie.sam

bwa mem -t 5 -M  /public/reference/index/bwa/hg38  ${id}_1_val_1.fq.gz  ${id}_2_val_2.fq.gz > ${id}.bwa.sam

done

6.sam文件转换成bam

ls *.sam|while read id ;do (samtools sort -O bam -@ 5 -o $(basename ${id} ".sam").bam ${id});done

rm *.sam

#报错时候看看sam文件到底转完没有  我这次就是比对到一半就运行了这个命令结果失败

7.建立bam文件索引

ls *.bam |xargs -i samtools index {}   #每个文件都有索引哟

8.reads比对情况统计

ls *.bam |xargs -i samtools flagstat -@ 10 {} >

ls *.bam |while read id ;do ( nohup samtools flagstat -@ 1 $id >  $(basename ${id} ".bam").flagstat & );done

source deactivate

最终结果示例:

转换,索引完成后结果示例

9.计数

mkdir $wkd/align

cd $wkd/align

source activate rna #建文件夹 激活环境 (好像是可选)

一个一个样本计数  输出多个文件

for fn in {508..523}

do

featureCounts -T 5 -p -t exon -g gene_id  -a /public/reference/gtf/gencode/gencode.v25.annotation.gtf.gz -o $fn.counts.txt SRR1039$fn.bam          #SRR这地方似乎可以根据实际情况改一下

done

一起计数 输出一个文件

mkdir $wkd/align

cd $wkd/align

source activate rna

gtf="/public/reference/gtf/gencode/gencode.v25.annotation.gtf.gz" 

featureCounts -T 5 -p -t exon -g gene_id  -a $gtf -o  all.id.txt  *.bam  1>counts.id.log 2>&1 &

# 代码看不懂   输出的all.id.txt文件就是表达矩阵  可以用来进行下一步差异分析画图等等  用R

count后文件示例

count后数据显示

10.数据检查

rm(list = ls())options(stringsAsFactors =F)a=read.table('all.id.txt',header =T)tmp=a[1:14,1:7]meta=a[,1:6]exprSet=a[,7:ncol(a)]colnames(exprSet)a2=exprSet[,'SRR1039516.hisat.bam']library(airway)data(airway)exprSet=assay(airway)colnames(exprSet)a1=exprSet[,'SRR1039516']group_list=colData(airway)[,3]a2=data.frame(id=meta[,1],a2=a2)a1=data.frame(id=names(a1),a1=as.numeric(a1))library(stringr)a2$id <- str_split(a2$id,'\\.',simplify =T)[,1]tmp=merge(a1,a2,by='id')png('tmp.png')plot(tmp[,2:3])dev.off()library(corrplot)png('cor.png')corrplot(cor(log2(exprSet+1)))dev.off()library(pheatmap)png('heatmap.png')m=cor(log2(exprSet+1))pheatmap(scale(cor(log2(exprSet+1))))dev.off()    #一点也看不懂  SRR应该是能改的


小TIPS

软链接 ln -s /路径/文件 ./          这个./别忘了打了   表示链接到当前文件夹

vim后点i 可以编辑   退出时候 用shift:qw   退出并保存

每次用软件命令之前 看看自己文件是不是那么回事 less -SN 整齐的看  别用cat 太大了

设置好变量用echo $看一看 对不对 

vim用 :set paste命令可以用粘贴模式  格式无损

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容