安装:
conda install seqkit
ref:seqkit一个FASTA/Q序列处理神器 - 遗世独立的愚公 - 博客园
一、序列操作:
1.取反向序列
seqkit seq test.fa -r > test_re.fa
2.取互补序列
seqkit seq test.fa -p > test_com.fa
3.取反向互补序列
seqkit seq test.fa -r -p > test_re_com.fa
4.DNA序列转换为RNA序列
seqkit seq test.fa --nda2rna > test_rna.fa
5.RNA序列转换为DNA序列
seqkit seq test.fa rna2dna > test_dna.fa
6.将序列以小写字母的形式输出
seqkit seq test.fa -l > test_lower.fa
7.将序列以大写字母的形式输出
seqkit seq test.fa -u > test_upper.fa
8.指定每行序列的输出长度(为0的话,代表为一整行,默认的输出 长度是60个碱基)
seqkit seq test.fa -w 10 > test_10.fa (指定序列的长度为10)
9.将多行序列转换为一行序列
seqkit seq test.fa -w 0 > test_w.fa
10.只输出序列
seqkit seq test.fa -s -w 0 > test_seq.fa
11.将只输出的序列的,指定每行输出的碱基数
seqkit seq test_seq.fa -s -w 40 > test_seq40.fa
###注意10,11的微妙之处
###11,12也可以一步完成:
seqkit seq test.fa -s -w 20 -o test_20.fa
二、Fasta/q之间以及与tab格式互换
10.将fataq文件转化为fasta格式.
seqkit fq2fa test.fq -o test.fa
11.将fasta格式转化为tab格式
seqkit fx2tab test.fa > test_tab.fa (没有seq参数)
三、序列信息统计
1.序列碱基含量
seqkit fx2tab -l -g -n -i -H test.fa
(这些参数组合起来比较好看)
2.序列长度的整体分布统计
seqkit stat test.fa
四、其他用法:功能还是挺多的: