基础知识
numts: 线粒体假基因(Nuclear Mitochondrial Pseudogenes)
[Nuclear mitochondrial pseudogenes] - PubMed (nih.gov)
NUMT-pseudogenes can make serious errors in analyzing free mtDNA of total cellular DNA (using PCR), as a result of their co-amplification.
是一些线粒体基因片段游离整合到核基因上成为非编码区,影响mtDNA的PCR过程的结果(共扩增)。
群体分层分析方法学习(转)
structure
1.数据格式处理
2. 参数选择
将整理好的基因型数据导入Structure,设置参数“Number of MCMC Reps”, “burn-in period”, “length of burn-in period”。
由于该软件所采用的算法是一个随机过程,因此,对于每一个K,需要进行多次重复运算以保证结果的可靠性。
3. 判断最佳K值
将结果打包,提交给在线软件Structure harvester,分析最佳的K值。
4. CLUMPP
使用CLUMPP对structure分析的重复运算结果进行重复抽样分析。得到最佳K值的Q-matrix结果。
5. 作图
将CLUMPP的结果传递给distruct,进行structure图形的绘制。
作者:WooWoods
链接:https://www.jianshu.com/p/3b621b2d6c5f
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
Structure图构建原理
获取样本基因型;即snp calling的结果,vcf file。
一般来说我们是不知道群体中十几包含了多少个亚群,我们一般把它设置为K。然后Structure软件就会使用贝叶斯算法,推算并模拟K分别在1~x的情况下,是如何分群,及每个个体血统分布情况。
如下图你可以了解k=2,3,9的情况下,该物种是如何分群的,及每个个体的血统构成。例如K=3,有三种颜色,代表三个亚群。有一些个体,会掺杂两种颜色,证明这个个体具有杂合的血统,并且颜色的多少代表掺杂了对应祖先的比例。
但是问题来了如何决定那个K值所对应的图是对的?因为structure使用的是贝叶斯算法,每个K值模拟的结果都会产生一个最大似然值。软件中会以最大似然值对数的形式出现,该值越大,说明对应K模拟的结果越接近真实群体的情况。当K值不断增加,会出现一个饱和的最大似然值的点。该点对应的K值所生成的图就是最合适的模拟图。般随着K值升高,ln likelihood值也会不断升高,但会慢慢进入平台期。选择最优K值的目标是要找到那个拐点。
简单说来,就是要找的一个likelihood最大(越大越可靠)而且K值最小(亚群数最少)的模拟结果,往往这样的模拟对应的K值是最接近于群体的真实情况的。
作者:lakeseafly
链接:https://www.jianshu.com/p/d46f27665074
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。