首先知道我们要干吗:We have developed an approach,LD Score regression, that quantifies the contribution of each by examining the relationship between test statistics and linkage disequilibrium (LD).
LD四大功能:estimating LD Scores, h2 and partitioned h2, genetic correlation, the LD Score regression intercept。
计算LD分数、性状的遗传度、性状间的遗传相关性及遗传协方差,分割遗传度,细胞类型特异性分析等
github中的wiki提供了关于估计 ld 分数、遗传力、遗传相关和 ld 分数回归截距和分割遗传度的教程。(翻译可能不太准啊)
文献Bulik-Sullivan, et al. LD Score Regression Distinguishes Confounding from Polygenicity in Genome-Wide Association Studies. Nature Genetics, 2015.
也可以看一下这篇https://mp.weixin.qq.com/s/cPRBKW0Bv8mHNtGjTNgyqg
LD的两个度量指标,D'和r2来表示LD的程度。
当D‘=1,表示连锁完全不平衡,没有重组;
当D‘=0,表示连锁完全平衡,随机组合;
当r2=1,表示连锁完全不平衡,没有重组;
当r2=0,表示连锁完全平衡,随机组合。
r2包括了重组和突变,而D’只包括重组史。与D'相比,在同样长度的染色体范围内,r2往往更低,这个特性能够帮助我们找到更精度的基因定位。另外,r2和D'相比,受样本量和等位基因频率的影响较小。D’能更准确地估测重组差异,但样本较小时低频率4种等位基因组合的可能性大大减小,因此D’不适合小样本研究。LD作图中通常采用r2来表示群体的LD水平。
https://mp.weixin.qq.com/s/1y27LMskwKXx_PfPSNr1hw
在github网站中安装LDhttps://github.com/bulik/ldsc/
其中一步安装anaconda:官网下载https://www.anaconda.com/download/#linux下载linux版本,拖到服务器工作路径,在此路径下输入命令bash文件名,一直按回车就安装到了home目录下,结束后,回到安装到的目录下,即home目录下,输入命令source .bashrc再输入conda,就运行成功啦。
如果不懂anaconda,可以看这个https://www.jianshu.com/p/eaee1fadc1e9
再就是跟着github一步一步安装LD。
可以下载来自欧洲和东亚的1000人基因组的LD score。这些LD score适用于基本LD得分分析(LD得分回归截距、遗传性、遗传相关性、跨性别遗传相关性)。下载partitioned LD Scores for partitioned heritability estimation。
因为自己要算,所以再一步一步记录一下吧,先跑一下它的示例。
1.安装好环境后,开始下载数据,解压数据,输入以下命令(就截图了,想要copy命令的直接去官网吧,有时候粘贴的格式有问题,为了节省地方就截图啦):
ps:这是下载下来的示例数据的各个colume
开始计算精神分裂症和双相情感障碍之间的遗传相关性
做到这一步就bug了,TabError: inconsistent use of tabs and spaces in indentation,正在寻求解决办法......
所以,多方打探,LD中 munge_sumstats.py这个脚本有问题,小师弟帮我重新整理了line583的格式,就ok了。接着输命令...
下面是示例文件以及跑出来的结果文件
打开第一个scz_bip.log文件看下过程即结果:
只是做了其中的一种两种性状(疾病)遗传相关性。
其他等用到的时候再写攻略吧~
发现了一个号称比LD好用的新软件,2018.12发表在nature genetis,软件名称叫SumHer,倒是很好听啊,有兴趣的看看吧。
附上网址LDAK, http://www.ldak.org
其他推文:https://mp.weixin.qq.com/s/OkuUFZWGbkDj2yify5ULQA