2018-11-01GWAS实战(四)plink 进阶之数据过滤

数据好不好,影响到结果的准确性,所以我们要来对数据进行过滤,过滤前,我们应该对数据的部分特征进行统计描述,以此为依据来进行过滤。

这里介绍的几个指标:
1.individuals with high missing genotype rates (具有高缺失基因型率的个体)
2.missing genotype rate(缺失基因型率统计)
3.minor allele frequency (一个snp上最小等位基因频率)
4.Hardy-Weinberg equilibrium failures(不符合哈德温伯格平衡的(认为这个位点和群体结构有关))
5.Linkage disequilibrium based SNP pruning(基于连锁不平衡筛选snp标记)

过滤具有高缺失基因型率的个体

这里主要是用一个mind 的参数


mind

--mind 之后的那个参数要自己设置的

plink --bfile core_v0.7 --mind 0.1 --make-bed --out test
result

这样我就把83个个体过滤掉了

注意这个有个--geno 是对每个snp在所有个体中的缺失率进行过滤

missing genotype rate

主要是 --missing 这个参数
显示缺失的统计结果

plink --bfile test --missing

会产生两个文件


process

一个是imiss,记录了样本的missing data
一个是lmiss,记录了snp的missing data

imiss

可以查看缺失率

lmiss

我们可以发现数据N_GENO 分别与之前的第一步的操作结果报告一一对应。

具体信息对应查看如下:


explain

Hardy-Weinberg equilibrium failures

哈迪-温伯格定律

“哈迪-温伯格定律”是指在理想状态下,各等位基因的频率和等位基因的基因型频率在遗传中是稳定不变的,即保持着基因平衡。该定律运用在生物学、生态学、遗传学。条件:①种群足够大;②种群个体间随机交配;③没有突变;④没有选择;⑤没有迁移;⑥没有遗传漂变。
——摘自百度

这一步是对每一个snp做哈迪-温伯格检验,针对等位基因平率的(与下文的LD比较)

plink --file test --hardy
hardy

会产生一个report (.hwe)


hwe

我们来看一下
第一列 snp 所在染色体
第二列 snp 名称
第三列 test的名称
第四列 Minor allele code
第五列 Major allele code
第六列 具体数据 也就是 AA Aa aa 的个数
第七列 观察到的2pq 的值
第八列 期望的2pq的值
第九列 对这个数据进行卡方检验,看显不显著

minor allele frequency

检查等位基因频率

plink --bfile core_v0.7 --freq
freq

产生一个.frq文件

result

第一列 snp所在的染色体
第二列 snp的名称
第三列 最小等位基因
第四列 主要等位基因
第五列 最小等位基因平率
第六列 Non-missing allele count

Linkage disequilibrium based SNP pruning

连锁不平衡 LD 过滤

这个是计算两个标记间的连锁率

连锁不平衡 (linkage disequilibrium)是指在某一群体中,不同座位上某两个基因同时遗传的频率明显高于预期的随机频率的现象。HLA 不同基因座位的各等位基因在人群中以一定的频率出现。简单地说,只要两个基因不是完全独立地遗传,就会表现出某种程度的连锁。这种情况就叫连锁不平衡。连锁不平衡可以是同一条染色体上的不同区域,也可以是不同染色体上的。
--百度百科

师兄说了,如果是单标记回归,可以不做,影响不大,最多影响速度,但是在多标记回归算基因互作的问题中,应该要做删选,因为不做的话会把连锁的snp误当做是基因互作。

如果做了LD,那么扫描出来的点可能很明显,只有一个,如果没有做LD,可能扫描出来的点是一团。

有两种方法可以做,这里只说一种

plink --bfile core_v0.7 --indep-pairwise 50 5 0.5
LD-prune

会产生两个文件,一个是plink.prune.in,一个是plink.prune.out

我不贴图了,就是标记名字,

Each is a simlpe list of SNP IDs; both these files can subsequently be specified as the argument for a --extract or --exclude command.

这个文件是可以用来做删选的参数的

plink --bfile core_v0.7 --extract plink.prune.in --make-bed --out pruneddata

这样就LD过滤好啦

LD.png

会产生过滤好的结果

好啦,其实还有好多其他要检测或者过滤的,不过这里介绍的是主要的一些,暂时用自然群体,也不考虑家系结构,这次写了好多,也算是学到了一点点皮毛了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352