2024-07-24 基因组FASTA文件中每个序列(染色体或其他序列)的大小的计算

工具faSize,下载地址:https://hgdownload.soe.ucsc.edu/downloads.html#utilities_downloads
用法:faSize file(s).fa faSize

-detailed :输出每条记录的名称和大小。
-tab :以制表符分隔格式输出统计信息。
-veryDetailed :为每个记录/序列输出以下值:
name:序列的名称
size:序列的大小
Ns:硬掩蔽碱基的数量
real:非硬掩码碱基的数量
upper:大写的碱基数
lower:小写的碱基数(软掩码)

实战:
/path/kent/faSize -detailed /path/Mus_musculus.GRCm39.dna.primary_assembly.fa | sort -k1,1 -k2,2n > mm39_genome.sizes

/path/kent/faSize -detailed /path/Homo_sapiens.GRCh38.dna.primary_assembly.fa | sort -k1,1 -k2,2n > hg38_genome.sizes

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。

推荐阅读更多精彩内容