利用python统计fq文件过滤后长度分布

通常从测序公司拿到的fq文件分为四行，第一行为序列名称，第二行为序列的碱基，第三行为序列名称，通常用+号代替，第四行为碱基质量。
代码如下：

from collections import Counter
with open('srg1.r1.paired.fq','r') as Fileout, open('srg1.r1.paired.results.txt','w') as Filein:
  i = 4
  dic, arr = {}, []
  while True:
      line = Fileout.readline()
      i += 1
      if i%4 == 2:
          arr.append(len(str(line)))
      if not line:
          break
  dic = Counter(arr)
  for k,v in dic.iteritems():
       Filein.write(k + v)

shell:

cat your.fq | paste ----| awk '{print ">"$1 "\n" $2}'

最后编辑于：2017.12.03 14:32:42

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Bioinformatics Data Skills
第十章使用序列数据生物信息学的核心问题之一是处理大量的（通常定义糟糕或模糊）文件格式。久而久之，一些特定的简单...
yangliunk1987阅读 5,491评论 3赞 53
NGS 数据过滤之 Trimmomatic 详细说明
tags： Trimmomatic NGS fastq NGS 原始数据过滤对后续分析至关重要，去除一些无用的序列...
wangpeng905阅读 102,629评论 27赞 199

从零开始完整学习全基因组测序（WGS）数据分析：第4节构建WGS主流程
这篇文章很长，超过1万字，是本系列中最重要的一篇，因为我并非只是在简单地告诉大家几条硬邦邦的操作命令。对于新手而言...
黄树嘉阅读 35,073评论 20赞 196
从零开始完整学习全基因组测序（WGS）数据分析：第2节 FASTA和FASTQ
在WGS数据的分析过程中，我们会接触到许多生物信息学/基因组学领域所特有的数据文件和它们特殊的格式，在这一节中将要...
黄树嘉阅读 9,653评论 0赞 60
火车站取票
最近身份证丢失，出差感觉很不方便。在取票的过程中，体会到了北京，南京和上海的不同礼遇。北京只要不是火车站，用驾驶证...
olivery981006阅读 228评论 0赞 0

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文