单体型分析

单倍型分析
理论上来说,单倍型的类别是2N,但由于LD的存在,会使得单倍型的类别远远的小于2N,但是如果当N的数目很大,即便是类别少,在整个群体中进行分类也会有很多种单倍型。这样的情况,可以对单倍型分成单倍型域,单体型域内几乎不发生重组

image.png

[理学]动物数量性状单倍体型分析及其应用.ppt-原创力文档 (book118.com)
Hapview软件可以计算block和tagSNP,但是一方面对输入的数据格式要求严格和SNP数目有限制,今天找到用plink计算block和tagSNP的方法,如果snp数目少的话,可以用Hapview

Hapview计算block和tagSNP

Hapview文件格式的要求

test.ped文件要求

image.png

该文件的第一列是家系的ID,如果是无关个体之间的研究,该列应为不重复的ID号;

第二列为个体的ID,做无关个体的研究,每个个体的编号不能重复;

第三列是父亲的ID,如果是无关个体的研究,该列为0;

第四列是母亲的ID,如果是无关个体的研究,该列为0;

第五列是个体的性别信息,其中1代表男性,2代表女性,如果研究个体的性别未知,该列用0表示;

第六列是个体的患病情况,0代表患病情况未知,1代表未患病, 2代表患病;

第七列之后,每两列代表个体一个位点的SNP信息,该软件不能识别A/T/C/G/N碱基,因此后续的SNP信息只能用数字表示, 其中1=A; 2=C; 3=G; 4=T; 缺失碱基用0表示;

sample.info文件

image.png

文件格式转换

##对vcf文件转换

###读入数据
rm(list=ls())
# choose.files()
library(vcfR)
setwd("D:\\mywork\\mywork\\16.小麦穗型世界和中国范围内变化GWAS\\1.321鲁非GWAS分析结果\\8.株型结果\\12.株高1A结果\\")
vcf_data <- read.vcfR("SNP_246_snp_plant_height_1A.chr1A.45791400-49094709.recode.vcf", verbose = FALSE )

##VCF文件包含GT:AD:GL,GT 代表的是genotype;AD代表的是allel depth;DP(Depth)为sample中该位点的覆盖度,是所支持的两个AD值(逗号前和逗号后)的加
#GL:三种基因型(RR RA AA)出现的可能性,R表示参考碱基,A表示变异碱基

vcf_data_gt <- extract.gt(vcf_data ,element="GT")


dim(vcf_data_gt)
vcf_data_fix <- vcf_data@fix
##对数据进行替换
##首先将缺失替换成0.5

vcf_data_gt[is.na(vcf_data_gt)] <- "0 0"
for (i in 1:9875) {
  vcf_data_gt[i,][vcf_data_gt[i,] == '0/0']<- paste(vcf_data_fix[i,4],vcf_data_fix[i,4],sep=" ")
  vcf_data_gt[i,][vcf_data_gt[i,] == '1/1']<- paste(vcf_data_fix[i,5],vcf_data_fix[i,5],sep=" ")
  ##将杂合也替换成0.5
  vcf_data_gt[i,][vcf_data_gt[i,] == '0/1']<- paste(vcf_data_fix[i,4],vcf_data_fix[i,5],sep=" ")
  vcf_data_gt[i,][vcf_data_gt[i,] == '1/0']<- paste(vcf_data_fix[i,5],vcf_data_fix[i,4],sep=" ")
  #
  
}

for (i in 1:9875) {
  vcf_data_gt[i,][vcf_data_gt[i,] == 'A A']<- "1 1"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'C C']<- "2 2"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'G G']<- "3 3"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'T T']<- "4 4"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'A C']<- "1 2"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'A G']<- "1 3"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'A T']<- "1 4"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'C A']<- "2 1"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'C G']<- "2 3"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'C T']<- "2 4"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'G A']<- "3 1"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'G C']<- "3 2"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'G T']<- "3 4"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'T A']<- "4 1"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'T C']<- "4 2"
  vcf_data_gt[i,][vcf_data_gt[i,] == 'T G']<- "4 3"
  
  
  
}

vcf_data_use<-t(vcf_data_gt)


write.csv(vcf_data_use,"vcf_data_use_HAPVIEW.csv")

直接将输出的数据按照格式要求整理好后,复制到他给的例子文件种,昨天进行这一步用自己将txt文件变成.ped文件一直出问题
Hapview如何输入数据如何进行参数的调整,可以参考下边连接
单倍型分析软件Haploview的导入格式及使用 - 云+社区 - 腾讯云 (tencent.com)
得到block绘图

image.png

存在的问题
(1)Hapview中计算block四种算法的区别还没研究透
(2)Hapview 存在java运行慢,SNP数目要求小,如果输入的数据多的话,导致软件直接卡死

用plink得到tagSNP

###首先得到目标区段的snp


sh get_gene_snp.sh steam_3D.txt chr3D.vcf

##将vcf文件修改成bed格式
plink --vcf steam4_peak_snp.chr2A.613558313-619417320.recode.vcf --recode --out test--const-fid --allow-extra-chr
plink --allow-extra-chr --noweb -file test--const-fid --out test1

##计算block
 plink --bfile test1 --blocks no-pheno-req --allow-extra-chr
##如果是bed格式就用--bfile
##如果是ped格式就用--file


##计算tagSNP
##首先准备一个block SNP文件信息,每一行是一个snp

##查看steam4_tagSNP
plink --bfile test1 --list-all --show-tags steam4_tagSNP.txt  --allow-extra-chr




[理学]动物数量性状单倍体型分析及其应用.ppt-原创力文档 (book118.com)
干货:如何利用1000 Genomes数据挑选tagSNP? | 基因有限公司 (genecompany.com)
单倍型分析软件Haploview的导入格式及使用 - 云+社区 - 腾讯云 (tencent.com)
SNP连锁不平衡度量和单倍型构建 | Yang's Garden (yangli.name)
人类基因组的Phasing原理是什么? - 知乎 (zhihu.com)
单倍体型分析方法及生物医学文献猪繁殖性状候选基因挖掘 - 豆丁网 (docin.com)
PLINK 连锁不平衡分析LD - 知乎 (zhihu.com)
(13条消息) haploview进行连锁不平衡分析_庐州月光的博客-CSDN博客

(13条消息) 使用shapeit进行单倍型分析_庐州月光的博客-CSDN博客

(13条消息) 使用Eagle2进行单倍型分析_庐州月光的博客-CSDN博客
基于RAINBOW的单倍型全基因组关联分析(haplotype-based GWAS)教程 - 知乎 (zhihu.com)

【翻译】RAINBOW:采用新型SNP-set方法的基于单倍型的全基因组关联分析【第二部分:材料和方法】 - Minerw - 博客园 (cnblogs.com)

用Beagle做基因型填充(Imputation) - 简书 (jianshu.com)
SR4R数据库:水稻4个SNP集的筛选及其应用 - 小xuo生 - 博客园 (cnblogs.com)

OmicShare Forum 广州基迪奥生物信息论坛 - Powered by Discuz!

基因组数据的定向和填充(Phasing and Imputation) - 简书 (jianshu.com)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容