登录注册写文章

统计fastq长度分布

煮梦斋_bioinfo

统计fastq长度分布

截取长度列
j是线程数 f 是长度所在列

seqkit fx2tab -j 8 -l  -n -i -H HNHP_rep1_1h_S46_L003_R1_val_1.fq.gz| cut -f 2 >Length.txt

得到一列长度数

然后在R 中运行画

library(tidyverse)

length <- read_tsv("Length.txt") %>% group_by(length) %>%
  summarise(Count = n())
length$length <- as.character(length$length)
sum <- sum(length$Count)
ggplot(length) + geom_col(aes(length, Count), width = 0.8) + 
  geom_line(aes(length, Count), group = 1) + geom_point(aes(length, Count)) + 
  scale_y_continuous(sec.axis = sec_axis(~.*100/sum, name = "% Relative Abundance")) + xlab("Length") +
  theme_bw() + theme(panel.grid = element_blank(), 
                     axis.title = element_text(size = 15))

ggsave("Length.png", height = 5, width = 8)
ggsave("Length.pdf", height = 5, width = 8)

最后得出一个分布图

image.png

参考https://www.jianshu.com/p/31244fb42da1

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

fasta/fastq序列长度分布统计
首先得到每条序列的长度，在这里使用seqkit软件。seqkit软件是一个强大的序列处理工具，安装方法参见官方网站...
超人立志做国王阅读 7,292评论 1赞 9
关于Mongodb的全面总结
关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
中v中阅读 32,003评论 2赞 89
Dapper分布式跟踪系统-翻译
概述当代的互联网的服务，通常都是用复杂的、大规模分布式集群来实现的。互联网应用构建在不同的软件模块集上，这些软件...
咖灰阅读 5,912评论 0赞 16
2019-07-09 Dapper，大规模分布式系统的跟踪系统
作者：Benjamin H. Sigelman, Luiz Andr´e Barroso, Mike Burrow...
李绍俊阅读 171评论 0赞 0
Dapper-大规模分布式链路跟踪系统
http://bigbully.github.io/Dapper-translation/ Dapper，大规模分...
jerrik阅读 2,449评论 0赞 2

1赞2赞

赞赏

手机看全文