有参转录组学习五：reads计数

Author：ligc

Date：19/5/15

在基因水平上，常用的软件为HTSeq-count，featureCounts，BEDTools, Qualimap, Rsubread, GenomicRanges等。

在转录本水平上，一般常用工具为Cufflinks和它的继任者StringTie， eXpress。

在外显子使用水平上,用于分析差异外显子使用的DEXSeq提供了一个Python脚本（dexseq_prepare_annotation.py）执行这个任务。

使用htseq-count

for i in `seq 59 62`
do
    nohup htseq-count -f bam -r pos -s no \
    ~/AKAP95_rna_seq/alignment/SRR35899${i}.sorted.bam \
    ~/AKAP95_rna_seq/reference/annotation/gencode.vM21.annotation.gtf \
    >SRR35899${i}_matrix.count 2>SRR35899${i}_htseq.log &
done

-f bam/sam：指定输入文件格式，默认SAM
-r name/pos: 你需要利用samtool sort对数据根据read name或者位置进行排序，默认是name
-s yes/no/reverse: 数据是否来自于strand-specific assay。DNA是双链的，所以需要判断到底来自于哪条链。如果选择了no，那么每一条read都会跟正义链和反义链进行比较。默认的yes对于双端测序表示第一个read都在同一个链上，第二个read则在另一条链上。
-a 最低质量，剔除低于阈值的read
-m 模式 union（默认）, intersection-strict and intersection-nonempty。一般而言就用默认的，作者也是这样认为的。
-i id attribute: 在GTF文件的最后一栏里，会有这个基因的多个命名方式（如下）， RNA-Seq数据分析常用的是gene_id。

htseq_count_result

合并表达矩阵

(AKAP95_workspace) [ligc@cluster reads_count]$ cat merge_read_count.sh
#CMD:python merge_read_count.py EV_3_count.tab,EV_4_count.tab,DNMT3B_2_count.tab,DNMT3B_3_count.tab,DNMT3B_4_count.tab EV_3,EV_4,DNMT3B_2,DNMT3B_3,DNMT3B_4 | less -S
# -*- coding: UTF-8 -*-
import sys
sample_counts = sys.argv[1] ##五个样本
sample_names = sys.argv[2]  ##样本名
count_files = sample_counts.split(",")
#print(count_files)
sample_ids = sample_names.split(",")
#print(sample_ids)
count_dict = {} ##字典
for count_file in count_files: ## 循环五个sample，生成gene_id和对应的counts
    with open (count_file) as count:
        for line in count:
            if line.startswith("__"):
                continue
            line = line.rstrip("\n")
            ele = line.split("\t")
            #print(ele)
            #gene_id -> [count1,count2,count3]
            if ele[0] in count_dict:
                count_dict[ele[0]].append(ele[1])
            else:
                count_dict[ele[0]] = [ele[1]]
print("gene_id\t" + "\t".join(sample_ids))
for gene_id in count_dict:
        #print(count_dict[gene_id])
    print(gene_id + "\t" + "\t".join(count_dict[gene_id]))

merge_count_matrix

R代码

rm(list = ls())
options(stringsAsFactors = FALSE)
raw_count <-read.table(file="merge_count.matrix",sep = "\t",header =T)
library(tidyverse)
new_count_matrix <- separate(raw_count,gene_id,into = "gene_id",sep = "[.]")
summary(new_count_matrix)
GAPDH <- new_count_matrix[new_count_matrix$gene_id =="ENSMUSG00000057666",]
AKAP95 <- new_count_matrix[new_count_matrix$gene_id=="ENSMUSG00000024045",]

本文主要参考了徐洲更师兄的简书文章

https://www.jianshu.com/nb/14291282

最后编辑于：2019.05.15 21:27:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 230,622评论 6赞 544
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 99,716评论 3赞 429
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 178,746评论 0赞 383
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 63,991评论 1赞 318
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 72,706评论 6赞 413
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 56,036评论 1赞 329
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 44,029评论 3赞 450
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 43,203评论 0赞 290
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 49,725评论 1赞 336
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 41,451评论 3赞 361
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 43,677评论 1赞 374
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 39,161评论 5赞 365
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 44,857评论 3赞 351
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 35,266评论 0赞 28
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 36,606评论 1赞 295
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 52,407评论 3赞 400
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 48,643评论 2赞 380

有参转录组学习五：reads计数

Author：ligc

Date：19/5/15

使用htseq-count

合并表达矩阵

R代码

本文主要参考了徐洲更师兄的简书文章

推荐阅读更多精彩内容