用k-mer分析进行基因组调查(genome survey):(三)用KMC进行k-mer频数统计

(全文约1100字)

【推荐】用Smudgeplot评估物种倍性后,用组合jellyfish+GenomeScope1.0做二倍体物种的基因组调查,用组合KMC+GenomeScope2.0做多倍体物种的基因组调查。

1. k-mer进行基因组调查的软件概况

k-mer进行基因组调查分为k-mer频数统计基因组特征评估两步。

  • KMC可以实现第一步k-mer频数统计。
  • KMC的结果sample.histo可以用在GenomeScope上,实现第二步基因组特征评估。

2. KMC 简介

  • KMC是一个用来从FASTQ/FASTA文件中计算k-mers的基于KMC二进制数据库的程序。
  • KMC是波兰的Silesian University of Technology的算法和软件学院的REFRESH Bioinformatics Group开发的工具。
  • 2017年发布了第三个版本,KMC3。
  • KMC是主要基于C语言的程序。

3. KMC 安装

  1. 版本

    有两个版本的KMC,一般使用第一个版本,Smudgeplot评估物种倍性时用到了第二个版本。

  1. 下载

    KMC download找对应系统的最新版本KMC软件,下载解压缩即可使用。

mkdir KMC && cd KMC
wget https://github.com/refresh-bio/KMC/releases/download/v3.2.1/KMC3.2.1.linux.tar.gz #下载最新版本的KMC
tar -xzf KMC3.2.1.linux.tar.gz #解压缩和解包,生成bin文件夹和include文件夹
  1. 使用

    解压缩后bin目录下会包含可执行文件,可直接使用,建议加入环境变量,包括:

  • bin/kmc:计算k-mer频数的主程序
  • bin/kmc_dump:在kmc生成数据库中列出k-mers的程序
  • bin/kmc_tools:允许操作kmc数据库的程序

4. KMC 运行

用KMC计算k-mer频率,生成k-mer频数直方表和k-mer直方图。

  1. 运行
mkdir tmp #创建临时文件夹
ls *.fastq.gz > FILES #用于分析的clean reads路径保存到文件FILES中
kmc -k21 -t16 -m64 -ci1 -cs10000 @FILES kmcdb tmp #计算k-mer频率
kmc_tools transform kmcdb histogram sample.histo -cx10000 #生成k-mer频数直方表sample.histo和k-mer直方图
  1. kmc命令参数
  • -k21:k-mer长度设置为21
  • -t16:线程16
  • -m64:内存64G,设置使用RAM的大致数量,范围1-1024。
  • -ci1 -cs10000:统计k-mer coverages覆盖度范围在[1-10000]的。
  • @FILES:保存了输入文件列表的文件名为FILES
  • kmcdb:KMC数据库的输出文件名前缀
  • tmp:临时目录
  1. kmc_tools命令参数
  • -cx10000:储存在直方图文件中counter的最大值。
  1. 结果

    生成的sample.histo可用于第二步GenomeScope的分析。

5. 基因组特征评估

获得k-mer频数分布表sample.histo后

  • 推荐用GenomeScope1.0或者GenomeScope2.0或者GenomeScope的R脚本来做基因组特征评估和画图。
  • 也可直接用R绘制sample.histo的频率分布直方图/频率分布曲线。

5.1. GenomeScope 网页版

5.1.1. GenomeScope1.0 网页版 —— 适用于二倍体物种

  1. GenomeScope1.0 网页版上传前一步获得的k-mer频数分布表sample.histo文件。
  2. 设置参数k-mer length为第一步选择的k-mer长度值,这里是17;参数Read length为序列读长,一般为150;最后一个参数Max kmer coverage建议修改成更大的10000,以统计更多的k-mers。
  3. 结果显示预估的基因组大小,杂合度,重复率等信息。

5.1.2. GenomeScope2.0 网页版 —— 适用于多倍体物种

GenomeScope2.0 网页版也是类似的步骤。

5.2. R绘制

  • R绘制k-mer频数分布曲线初步查看基因组特征。
  • 获得kmer_plot.png为频数分布曲线,可根据曲线峰值对基因组大小进行计算和预估。
#R 脚本示例
kmer <- read.table('sample.histo')
kmer <- subset(kmer, V1 >=5 & V1 <=500) #对频数范围5-500的数据进行绘制 
Frequency <- kmer$V1
Number <- kmer$V2
png('kmer_plot.png')
plot(Frequency, Number, type = 'l', col = 'blue')
dev.off()

6. references

  1. KMC3 paper:https://academic.oup.com/bioinformatics/article/33/17/2759/3796399
  2. refresh-bio/KMC:https://github.com/refresh-bio/KMC
  3. tbenavi1/KMC github:https://github.com/tbenavi1/KMC
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容