对性染色体进行关联分析

欢迎来到"bio生物信息"的世界

1 前言

早期的研究普遍只做常染色体的全基因组关联分析,很少做性染色体的。

主要原因是性染色体的遗传模式比较复杂,存在X染色体失活,而且男女效应值不大一样。

其次,也不是所有的表型都是男女有差异的。

再然后,也没有很好的工具计算性染色体的关联分析。

随着遗传学的研究发展,现在有很多工具是允许计算性染色体的关联分析。

下面简单介绍一个常见的工具SNPTEST

网址:https://mathgen.stats.ox.ac.uk/genetics_software/snptest/snptest.html

2 SNPTEST支持什么分析

SNPTEST支持很多分析

比如,

二分类、单个或者多个连续型表型的关联分析

贝叶斯、加性模型、显性模型、隐性模型、常规模型、杂合子模型

对一个或多个协变量、SNP位点进行条件分析

变量间的交互作用分析

性染色体关联分析

3 如何使用SNPTEST对性染色体进行关联分析

3.1 下载、安装(以CentOS6.6为例)

对于linux系统而言,建议选择动态链接版本(文件写着dynamic)

wget http://www.well.ox.ac.uk/~gav/resources/snptest_v2.5.4-beta3_CentOS6.6_x86_64_dynamic.tgz

tar zxvf snptest_v2.5.4-beta3_CentOS6.6_x86_64_dynamic.tgz

3.2 准备输入文件

输入文件需要两种类型。一种是表型文件,以.sample后缀,一种是基因型文件。

3.2.1 表型文件.sample的准备

下图是表型文件的格式

第一行是表型的title,第二行是对每一列的数据说明。

注意,头两行是必须的,不然会报错。

先讲第一行的格式:

第一列和第二列是样本的family ID 和个体ID。

第三列是missing,指的是样本的缺失率,这一列可以通过plink的--missing参数获得。

第四列到第七列都是协变量。(红色框框)

第八列到第十一列都是表型。(蓝色框框)

最后一列是性别。(绿色框框)

再讲第二行的格式:

第二行的0 0 0 D D C C P P B B D又是什么呢

前三个0 0 0不需要修改,直接照着写。

红色框框D D C C指的是协变量的类型为离散型(D)和连续型(C)

蓝色框框P P B B指的是表型的类型为连续型(P)和二分类(B)

绿色框框D指的是性别为离散型(D)

3.2.2 基因型文件的准备

基因型文件支持三种格式。

第一种:GEN 或 gzipped GEN 格式,以.gen 或 .gen.gz结尾

第二种:BGEN格式,以.bgen结尾

第三种:plink格式,以.bed结尾

3.3 做性染色体的关联分析

输入如下命令:

./snptest \

-data ./example/cohort1_0X.bed ./example/cohort1.sample ./example/cohort2_0X.bed ./example/cohort2.sample \

-o ./example/ex.out \

-method newml \

-frequentist 1 \

-pheno bin1

解释一下这些参数的意思。

-data后面跟的是一个或多个队列的基因型文件(.bed)和表型文件(.sample),这里列举了两个队列。在实际的分析中,可以只分析一个,也可以同时分析多个队列。

-o指的是输出的文件路径(./example/)和文件名(ex.out)。

-method指的是所用的方法。

-frequentist指的是用的模型。模型可选加性模型、显性模型、隐性模型、常规模型、杂合子模型。分别用1,2,3,4,5表示。 1=Additive, 2=Dominant, 3=Recessive, 4=General and 5=Heterozygote

-pheno指的是所分析的表型列名。

3.4 可能出现的报错

报错1:!! Error: (genfile::DuplicateIndividualError) A duplicate sample occurs on line 4 of the file

解决方法:这个报错说明ID_1的字段是一样的。需要将ID_1的每个样本修改为独一无二的字符。可以与ID_2保持一致。

报错2:!! Error: the number of individuals (xxx) in the sample file differs from the number (yyy) in the genotypes file

解决方法:将基因型文件(.bed)的顺序和数量与表型文件(.sample)的顺序和数量保持一致

报错3:二分类表型识别不了

解决方法:将二分类表型修改撑0,1编码,SNPtest识别不了1,2

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容