Nature同款曼哈顿图

今天给大家分享一个Nature同款曼哈顿图

模仿的是:Fig. 2: Manhattan plot and spatial mapping of the associations between T2* in the putamen and four SNPs.

From: Genome - wide association studies of brain imaging phenotypes in UK Biobank

它通过将基因组中的单核苷酸多态性(SNPs)的显著性水平(通常是p值)进行可视化,来识别与特定性状或疾病相关的基因区域。

曼哈顿图(Manhattan Plot)是一种常用于基因组学研究的可视化工具,广泛应用于全基因组关联分析(GWAS,Genome-Wide Association Studies)结果的展示。

一、曼哈顿图的特点

X轴:

表示基因组的位置,通常按染色体编号和物理位置(如碱基对,bp)进行排列。每条染色体用不同的颜色进行区分,便于在图中进行区分。

Y轴:

表示SNPs的显著性水平,通常是-log10(p-value)。p值越小,-log10(p-value)的值越大,点在图中的位置也会越高,表示该SNP的显著性越强。

阈值线:

通常会在图中绘制一条水平线,用于表示显著性阈值(例如,p < 5×10^-8)。超过该阈值的点被认为是具有统计学显著性的SNPs,通常表示与某个特定性状或疾病有较强的关联。

点的分布:

每个点代表一个SNP,其高度表示该SNP的显著性。显著的SNPs在图中形成“尖峰”,类似于曼哈顿的天际线,因而得名“曼哈顿图”。

二、代码

(1)数据代码

SNP:生成10000个SNP,SNP编号为 rs 开头的编号。CHR:每个SNP对应一个染色体编号,从1到22(通常是人类的22个常染色体)。BP:每个SNP的基因组位置(从1到1e6的随机值)。P:每个SNP的p值。大部分是从0到1的均匀分布生成的,但会加入10个极显著的位点(极小的p值)。

(2)处理代码

计算-log10(p-value):使用 mutate 函数计算每个SNP的 -log10(p-value),这有助于将p值的差异扩大,方便在图上显示。p值越小,对应的-log10(p-value)越大,表明该SNP与性状或疾病的关联性越强。计算染色体的累积位置:为了将染色体横向排列在图上,首先计算每条染色体的最大基因组位置(max_bp),然后使用 cumsum 为每条染色体分配一个累积的x坐标(BP_cum),以便在曼哈顿图中正确显示。找出每条染色体上最显著的SNP(最高点):这些点在图中会显示出来,通常用于标注那些在图中有显著性p值的SNP。
 geom_text:标注每条染色体上最显著的SNP,标记出它们的rs编号。 

三、出图


该图是一个用于展示基因组关联研究(GWAS)结果的曼哈顿图,显示了人类的22个常染色体上SNP与某一性状之间的关联。通过该图,可以观察到哪些区域与性状的关联性较强,并进一步筛选出潜在的关键位点。

生物信息学领域非常广泛,难以一次说尽。我们下次继续更新,一起深入学习生物信息学的内容!

喜欢的宝子们点个赞吧~码字不易,且行且珍惜~

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。

推荐阅读更多精彩内容