fastq 文件处理

2021/03/22

这是一个小任务

读取某个目录下的文件

import os

aim_dir = '/home/user/fastq_dir/'

fastq_files = os.listdir(aim_dir)
print(fastq_files)

结果是一个列表,包括此目录下所有的文件的全称 及 文件扩展名(.txt,.fasta,.gz等)

for fastq_file in fastq_files:
    print(fastq_file) 

循环输出每一个文件名
若文件名格式一致,如为 sample_name.fastq.gz ,可使用 正则表达式 获取想要的信息


若目标目录 下不是文件而是文件夹,可循环上一步获取所需要文件夹内的内容

# 例如 文件范例为 /home/user/fastq_dir/sample_name/sample_name.fastq.gz
samples = os.listdir(aim_dir)
for sample in samples:
    fastq_path = f'aim_dir{sample}/{sample}.fastq.gz'

随后可以处理 fastq.gz 文件
f'{sample}'可以填入变量,是形成一段固定格式的字符串,与 '{0}'.format(sample) 相同,但更简略一点


在Linux中:查看 .gz 压缩文件

查看 .gz 压缩文件
在Linux中:
less -S *.gz | grep 'keyword' | less -S    # 查看
less -S *.gz | grep 'keyword' > *.txt      # 写入到txt文件中
gunzip -c *.gz | grep 'keyword'            # 用gunzip不解压的查看

在python中处理.gz文件

如 fastq.gz 文件

from Bio import SeqIO  # 导入biopython 
from Bio.SeqIO import parse
import gzip

根据上面得到的 .fastq.gz 的绝对路径,读成字典

fastq_dt = SeqIO.to_dict(parse(gzip.open(fastq, 'rt'), 'fastq'))  # 解压构建字典
seq = fastq_dt[id].seq  # Seq(' ') 类型序列   无法写入xlsx
seq = str(fastq_dt[id].seq)  # 普通字符串类型    可以写入xlsx

获取注释
print(fastq_dt[id].letter_annotations)
{'phred_quality': [37, 37, 37, 37, 37, 37, 37, 37]}   这是字典类型的质量值
print(fastq_dt[id].letter_annotations['phred_quality'])
[37, 37, 37, 37, 37, 37, 37, 37]   这是列表类型的质量值,方便之后过滤质量值不好的reads

可以根据关键的 id 获取序列


或者 构建一个字典 统计一下 fastq.gz 文件中 序列的 数量

from collections import defaultdict
from Bio import SeqIO
from Bio.SeqIO import parse
import gzip

seq_dict = defaultdict(int)

for record in SeqIO.parse(gzip.open(fastq_path, 'rt'), 'fastq'):
    seq = str(record.seq)
    seq_dict[seq] += 1

若是多个样本的 fastq.gz 文件

seq_dict = defaultdict(lambda: defauludict(int))

for sample in samples:
    for record in SeqIO.parse(gzip.open(fastq_path, 'rt'), 'fastq'):
        seq = str(record.seq)
        seq_dict[sample][seq] += 1

这样就可以多个样本一起统计啦

可是,这样构建的字典里面是无序的,怎样把序列按 数量 排个序呢??
对于单个样本:

seq_dict = {'aaaaaa':5, 'bbbbbb': 3, 'cccc': 6}  # 这种格式的
print(seq_dict.items())
#  dict_items([('aaaaaa', 5), ('bbbbbb', 3), ('cccc', 6)])

实际上变成了 由 一对键值对 组成的元组 组成的 列表
可以根据 每个 元组的 第二位,也就是 数量进行 排序

sort_seq = sorted(seq_dict.items(), key=lambda x: x[1], reverse=True)
print(sort_seq)
# [('cccc', 6), ('aaaaaa', 5), ('bbbbbb', 3)]

排列完还是个列表
可以输出你想要的前多少个

例如:前500个
for seq in sort_seq[:500]:
    print(seq[0], seq[1])

对于多个样本,也差不多

seq_dict = {
            'sample1': {'aaaaaa':5, 'bbbbbb': 3, 'cccc': 6}
            'sample2': {'aaaaaa':5, 'bbbbbb': 3, 'cccc': 6}
             }  # 这种格式的
for sample in seq_dict:
    sam_seq_dict = seq_dict[sample]
    sort_sam_seq = sorted(sam_seq_dict.items(), key=lambda x: x[1], reverse=True)
    for seq in sort_seq[:500]:
        print(seq[0], seq[1])

简直一毛一样有没有


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容