接着上次写了plink的第1篇基本格式后,小Q今天开始写第2篇-如何修改plink里的样本信息啦!
首先我们假设数据是这个样子的,2个样本,2个SNP,这里采用ped & map
plink.ped & plink.map
ped: 家庭ID 样本ID 父亲ID 母亲ID 性别 疾病状态 SNP1的基因型 SNP2的基因型
ind1FID ind1IID F1 M1 1 0 A G G T
ind2FID ind2IID F2 M2 2 0 G G T T
map: 染色体号 SNPID 遗传距离 物理距离
1 snp1 0 100
2 snp2 0 1000
这些信息怎么表示请见《第1篇-数据格式:https://www.jianshu.com/p/ebaa8311b318》
plink里记录的样本信息主要包括以下几种:
- family ID:家庭ID
- 个体ID
- 父亲ID
- 母亲ID
- 性别
- 患病状态
所以更新样本信息主要是更新以下几类:
- 样本自己的ID
- --update-ids expects input with the following four fields:
Old family ID
Old within-family ID
New family ID
New within-family ID - inputfile内容如下
ind1FID ind1IID ind1FID2 ind1IID2 - 命令行
plink --file plink --update-ids inputfile --recode --out newplink
- 父母的ID
- --update-parents expects the following four fields:
Family ID
Within-family ID
New paternal within-family ID
New maternal within-family ID - inputfile内容如下
ind1FID ind1IID F1new M1new - 命令行
plink --file plink --update-parents inputfile --recode --out newplink
- 性别
- --update-sex
Family ID
Within-family ID
sex information (1 or M = male, 2 or F = female, 0 = missing) - inputfile内容如下
ind1FID ind1IID 2 - 命令行
plink --file plink --update-sex inputfile --recode --out newplink
下期预告:
- 第3篇-如何利用plink提取部分数据
- 第4篇-如何利用plink合并不同来源的数据
......
喜欢的小伙伴,点个喜欢或赞赏下吧!
转载请标明出处和作者 ^+^
撰文 & 编辑:VickieQ
校对:HCLO4 & 花毛