2021-01-04 基于k-mer进行基因组大小估算的软件-GCE(gce1.0.2)

使用 GCE 进行基因组大小评估

最近在尝试做基因组大小的评估。尝试了几款软件。今天介绍一下GCE的使用。该软件GCE(Genome Characteristics Estimation) 是华大基因用于基因组评估的软件。最早的版本(gce-1.0.0)发表于2012年, 其参考文献为:Estimation of genomic characteristics by analyzing k-mer frequency in de novo genome projects。时隔8年,终于更新啦!2020年更新版本为gce-1.0.2,软件下载地址 ftp://ftp.genomics.org.cn/pub/gce

以前GCE 软件包中主要包含kmer_freq_hash 和 gce 两支程序。前者用于进行 kmer的频数统计,后者在前者的结果上进行基因组大小的准确估算。最近更新的版本(gce1.0.2)主要包含kmerfreq和gce两支程序。程序使用参数有所变动。

1.GCE 下载和安装

wget

ftp://ftp.genomics.org.cn/pub/gce/gce-1.0.2

tar -xzvf gce.tar.gz

cd gce-1.0.2

make

出现make: Nothing to be done for 'all',上网查了一下,应该是已经编译好了,可以直接使用。.

温馨提示:记得添加环境变量

(1) gce

gce -h 可以看到其用法,如下图:


图1


Usage:  gce(genomiccharactor estimator) [option]

Version: 1.0.2

Author:   BGIShenZhen

-f      depth frequency file with two columns: depthvalue and kmer species number #深度频率文件共两列:kmer重复次数和kmer种类数

-c      expected depth for unique kmer, which can be obtained by checking the data with human eyes # 唯一kmer的期望深度

-g      total kmer number, i.e. total number of kmerindividuals #全部kmer数量

-b     have bias(1) or not(0), default=0

-H     use hybrid mode(1) or not(0), default=0 #使用杂合模式(1),不使用(0),默认不使用。

-m    estimation mode: discrete mode(0) andcontinuous mode(1), default=0 #估算模型:离散型(0),连续型(1),默认离散型。

-M    max depth value, information for larger depthwill be ignored, default=1500 #最大深度值,默认1500,超过此数值的将被忽略,

-D     precision of expect value, default=1

-d     difference cut off, default=0.0001

-i      iterate cycle number cut off, default=10000

,-h  this help

Example:

(1) Before run gce, firstly get the total kmer number anddepth frequency file from the kmerfreq result file (example: AF.kmer.freq.stat)

     lessAF.kmer.freq.stat | grep "#Kmer indivdual number"

     less AF.kmer.freq.stat | perl-ne 'next if(/^#/ || /^\s/); print; ' | awk '{print $1"\t"$2}' >AF.kmer.freq.stat.2colum

(2) Run gce in homozygous mode, suitable for homozygousand near-homozygous genome (-g and -f must be set at the same time)

     gce-g 173854609857 -f AF.kmer.freq.stat.2colum >gce.table 2>gce.log

(3) Run gce in heterzygous mode, siutable forheterozgyous genome (-H and -c must be set at the same time)

     gce -g 173854609857 -fAF.kmer.freq.stat.2colum -c 75 -H 1 >gce2.table 2>gce2.log


图2 

 (2) kmerfreq 

kmerfreq  [options]

 Version 4.0

   -k  kmer size, recommand value13 to 19, default=17

#设置 kmer 的大小。推荐该值为 13~19,默认值为17

   -f  input file format: 1:fq|gz(one-line), 2: fa|gz(one-line), default=1 

#输入文件格式 1 fq|gz(one-line), 2: fa|gz(one-line),默认为1

   -p  output file prefix,default=reads_files.lib

#输出文件前缀,默认reads_files.lib

   -r  number of reads stored inbuffer memory, default=10000

   -t  thread number to use inparallel, default=10

#线程数 默认10

   -w  whether output kmer sequenceand frequency value, , 1:yes, 0:no, default=0

#是否输出kmer序列和频率值,1:yes, 0:no,默认不输出。

   -c  kmer frequency cutoff, equalor larger will be output, co-used with -w, default=5

#kmer频率终止值,等于或者大于默认值的会被输出。与-w一起使用,默认值为5。

   -m  whether output computermemory data, 1:yes, 0:no, default=0

#是否输出计算机内存数据,1:yes, 0:no,默认不输出。

   -q  kmer frequency cutoff, 0 forlower, 1 for equal and larger, co-used with -m, default=5

#kmer频率截止值,小于默认值为0,等于或者大于默认值为1,默认值为5.

   -h        get help information

#获取帮助信息

Example: kmerfreq reads_files.lib

        kmerfreq  -k 17 -t 10 -p Ecoli_K17reads_files.lib

        kmerfreq  -k 17 -t 10 -p Ecoli_K17-w 1 -c 5 reads_files.lib

        kmerfreq  -k 17 -t 10 -p Ecoli_K17-m 1 -q 5 reads_files.lib

GCE命令行:

kmerfreq  -k 17 -t 10 -p Ecoli_K17reads_files.lib

less AF.kmer.freq.stat | grep "#Kmer indivdual number"

less AF.kmer.freq.stat | perl-ne 'next if(/^#/ || /^\s/); print; ' | awk '{print $1"\t"$2}' >AF.kmer.freq.stat.2colum

gce -g 173854609857 -f AF.kmer.freq.stat.2colum >gce.table 2>gce.log   or

gce -g 173854609857 -f AF.kmer.freq.stat.2colum -c 75 -H 1 >gce2.table2>gce2.log

2.结果展示(以kmer=17为例):

图3

这里的基因组大小计算为: genome size=effective_kmer_individuals/coverage_depth=460468198.15143bp,即约460Mb。

参考:陈连福的生信博客:http://www.chenlianfu.com/?p=2335

        

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351

推荐阅读更多精彩内容