对数据进行操作（增、删、改、查）

1.FASTA/Q

利用seqkit对FASTA/Q格式的序列文件进行操作，使用说明和安装可以查看：seqkit

#对文件进行简单的统计：

seqkit stat *.gz

#统计序列的gc含量：

seqkit fx2tab -j 4 -n -i -g viral.*.fna.gz

#可以自定义命令行，计算A、C含量与AC含量：

seqkit fx2tab -j 4 -n -i -H -B a -B c -B ac viral.*.fna.gz

#对序列进行随机抽样：（-p 0.001表示以0.001的比例抽取）

seqkit sample -p 0.001 duplicated-reads.fq.gz|seqkit seq -n -i>id.txt|wc -l

#根据抽取出来的id进行搜索：

seqkit grep -f id.txt duplicated-reads.fq.gz>duplicated-reads.subset.fq.gz

#如何查找序列中的多义碱基：

seqkit fx2tab -n -i -a viral.1.1.genomic.fna.gz|csvtk -H -t grep -f 4 -r -i -p '[^ATCG]'

#将存在这些的ID存入一个文本：

seqkit fx2tab -n -i -a viral.1.1.genomic.fna.gz|csvtk -H -t grep -f 4 -r -i -p '[^ATCG]'|cut -f 1 > id2.txt

#然后排除这些序列：

seqkit grep -f id2.txt -v viral.1.1.genomic.fna.gz > clean.fa

#对序列进行去重：

seqkit rmdup -s -i duplicated-reads.fq.gz > duplicated-reads.uniq.fq.gz

#查找基序、酶切位点等子序列：

seqkit locate -d -i -f enzymes.fa viral.1.1.genomic.fna.gz

#如何根据开头信息分割fasta文件？首先查看开头：

seqkit head -n 3 viral.1.protein.faa.gz|seqkit seq -n

#根据id进行分割：

seqkit split -j 4 -i --id-regexp "\[(.+)\]" viral.1.protein.faa.gz

#对含有‘hypothetical’的序列进行搜索

seqkit grep -n -r -i -p 'hypothetical' viral.1.protein.faa.gz|seqkit head -n 3|seqkit seq -n

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

对数据进行操作（增、删、改、查）

对数据进行操作（增、删、改、查）

1.FASTA/Q

相关阅读更多精彩内容

友情链接更多精彩内容