对数据进行操作(增、删、改、查)

1.FASTA/Q

利用seqkit对FASTA/Q格式的序列文件进行操作,使用说明和安装可以查看:seqkit

#对文件进行简单的统计:

seqkit stat *.gz

#统计序列的gc含量:

seqkit fx2tab -j 4 -n -i -g viral.*.fna.gz

#可以自定义命令行,计算A、C含量与AC含量:

seqkit fx2tab -j 4 -n -i -H -B a -B c -B ac viral.*.fna.gz

#对序列进行随机抽样:(-p 0.001表示以0.001的比例抽取)

seqkit sample -p 0.001 duplicated-reads.fq.gz|seqkit seq -n -i>id.txt|wc -l

#根据抽取出来的id进行搜索:

seqkit grep -f id.txt duplicated-reads.fq.gz>duplicated-reads.subset.fq.gz

#如何查找序列中的多义碱基:

seqkit fx2tab -n -i -a viral.1.1.genomic.fna.gz|csvtk -H -t grep -f 4 -r -i -p '[^ATCG]'

#将存在这些的ID存入一个文本:

seqkit fx2tab -n -i -a viral.1.1.genomic.fna.gz|csvtk -H -t grep -f 4 -r -i -p '[^ATCG]'|cut -f 1 > id2.txt

#然后排除这些序列:

seqkit grep -f id2.txt -v viral.1.1.genomic.fna.gz > clean.fa

#对序列进行去重:

seqkit rmdup -s -i duplicated-reads.fq.gz > duplicated-reads.uniq.fq.gz

#查找基序、酶切位点等子序列:

seqkit locate -d -i -f enzymes.fa viral.1.1.genomic.fna.gz

#如何根据开头信息分割fasta文件?首先查看开头:

seqkit head -n 3 viral.1.protein.faa.gz|seqkit seq -n

#根据id进行分割:

seqkit split -j 4 -i --id-regexp "\[(.+)\]" viral.1.protein.faa.gz

#对含有‘hypothetical’的序列进行搜索

seqkit grep -n -r -i -p 'hypothetical' viral.1.protein.faa.gz|seqkit head -n 3|seqkit seq -n


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容