重测序(RADseq)做群体遗传分析套路

实验材料

构建的群体,或自然群体,如各地方品种。

RAD文库构建

提取DNA后,构建文库,简要步骤如下:
① 限制性内切酶TaqI酶切;
② 连接P1接头;
③ DNA随机打断片断化;
④ 目的片段回收与末端修复;
⑤ 连接P2接头;
⑥ RAD片段富集;
⑦ 上机测序。
参考:Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA (RAD) markers

测序reads过滤

根据识别标签序列得到每个个体的测序reads,使用trimmomatic进行过滤(其他质控软件,如fastqc,multiQC等)
设置过滤参数为:SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50。 过滤标准:两端质量低于5的碱基进行切除,并以5bp为窗口进行滑动过滤,对平均质量低于20的窗口进行切除。

比对和变异检测

BWA (其他比对软件如bowtie2/soap2/MAQ等)将过滤后的个体clean reads比对到参考基因组序列上。样本比对率反映的是样本测序数据与参考基因组的相似性,覆盖深度和覆盖度能够直接反映测序数据的均一性与参考序列的同源性。

使用GATK(或samtools+bcftools)Haplotype Caller模块进行变异检测,获得群体变异集文件(VCF 格式)。对变异进行过滤:过滤参数为缺失率小于或等于0.2、杂合率小于或等于0.2、最小等位基因频率(MAF) 大于或等于0.05,最终得到高质量的基因型数据。

聚类分析

群体分析三幅图:群体结构图(祖先成分堆叠图)、PCA、系统发生树。

在获得高质量的标记数据以后,利用vcftools将vcf文件处理得到plink.ped和plink.map文件(整理为plink软件所需格式)。

使用plink 软件随机选择连锁不平衡(LD)小于0.1,且相邻间隔在300kb以上的SNP位点,最后得到一个包含3420 个SNP位点的标记集,一般是生成.bed文件。

1.祖先成分堆叠图
使用ADMIXTURE对此 SNP位点集(bed文件)进行群体结构分析(Structure),利用交叉验证过程确定确定合适的祖先数或亚群(K值)。若不知道理想的K值,可用ADMIXTURE计算,一般当cross-validation error值最低时所对应的K值为最合适的K值。

image.png

考虑到样本所归属的分类单元,即看看哪几个物种聚在一起,对合适的K值利用Structure软件(速度慢,其他软件如frappe,ADMIXTURE也可做群体结构图,并且很快)聚类图,一些R包如hapmap也是可以做群体结构图的。


image.png

2.PCA
利用GCTA对SNP数据集进行样本的PCA分析(其他软件如EIGENSOFT中的smartpca)。GCTA可以直接读取.bed , .bim , .fam文件,利用–make-grm 生成个体对之间的遗传关系矩阵,并将GRM的下三角元素保存为二进制文件.grm.id , .grm.bin , .grm.N.bin。使用 –pca 设置要生成主成分的数目,一般来说就可以刻画出群体结构。这一步会生成 .eigenval 和 .eigenvec 两个文件。.eigenval文件为各主成分可解释遗传信息的比例,.eigenvec文件为每个样本在top4主成分上的分解值。

image.png

3.系统发育树
构树的方法有非加权分组平均法(UPGMA,已经很少用)、最小进化法(ME)、邻接法(NJ)、最大简约法(MP)、最大似然法(ML)等。

构树软件如FastTree/MEGA/cluster X/phylip,美化可以用FigTree/ggtree/treeview/GraPhIAn。

NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。


image.png

GWAS的群体遗传分析也是包含这三个图,RADseq毕竟是简化基因组,得到的SNP有限,做这种群体分析效果肯定没有GWAS好。

Ref:Admixture:一款快速分析群体遗传结构的软件
群体结构分析三种常用方法(下篇)
群体结构分析三种常用方法 (上篇)
基于RAD高通量测序探讨中国85种杜鹃花属植物的分类
http://www.360doc.com/content/17/1120/01/33459258_705424795.shtml

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容

  • 这阵子在做红树的群体重测序分析,一开始在PCA这个坎上遇到了一个网上普遍的教程都没有怎么提及的坑,加之下午有人发邮...
    生信小撰阅读 3,405评论 6 10
  • 重测序技术简介 全基因组重测序(Resequencing)是对已知参考基因组序列的物种进行不同个体间的基因组测序,...
    lakeseafly阅读 9,490评论 1 54
  • 常用的工具 PCA分析中常用的工具有GCTA中的PCA模块,老牌的软件EIGENSOFT中的smartpca,还有...
    lakeseafly阅读 18,117评论 21 48
  • 一次简化基因组数据分析实战 尽管目前已经有大量物种基因组释放出来,但还是存在许多物种是没有参考基因组。使用基于酶切...
    xuzhougeng阅读 14,020评论 10 40
  • 终于把多多送到学校,步入正规的感觉。 多多的咳嗽好的差不多了,我也狠狠心把她送到学校,在家影响妹妹休息,没人陪玩,...
    冰蓝儿8阅读 394评论 0 1