1. Fastq
从fastq中提取出指定的序列,已知某一个read id,就可以提取fastq序列,如下为一个test.fq文件
@M04261:27:000000000-C7J75:1:1101:11401:1775 1:N:0:TCGCCTTA
ATCCTGACCCTGCGTACCAGCACAGGTTTGCACAAAAAAGCAGGCTACCATGCTGAGTCTTCTGCTCCTTCTCCTGGGACTAGCCAAGCAGGGATAT
+
CCCCCGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
@M04261:27:000000000-C7J75:1:1101:12584:1776 1:N:0:TCGCCTTA
ATCCTGGACCGATGTGGAGGAAAATCCTGGACCCTGCGTACCAGCACAAGTTTGTACAAAAAAGCAGGCTACCATGGACTCCTGGACCCTCTGCTGT
+
CCCCCGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
python3 extract.FastX.py test.fq M04261:27:000000000-C7J75:1:1101:12584:1776
屏幕输出fastq信息。
如果你已知的read id是一个文件,包含了许多read id,也是可以的。
python3 extract.FastX.py test.fq read_id.list
2. Fasta:
已知fasta文件,你想提取出fasta文件中第几条染色体的序列,或者第几条染色体上具体某段区域的序列。可以如下操作
假设你的fasta文件是这样的:test.fa
>chr1
ATCGATCGATCG
提取操作:
python3 extract.FastX.py test.fa chr1 2 4
直接屏幕输出
TCG
如果想看整条chr1的信息:
python3 extract.FastX.py test.fa chr1
直接屏幕输出
ATCGATCGATCG
此脚本支持压缩和非压缩的fastq或者fasta文件格式。
兼容python2,但推荐使用python3
点赞,留言,私信告诉你脚本地址