重测序分析(10)群体进化分析之PCA分析

PCA

PCA(Principal Components Analysis)即主成分分析,也称主分量分析或主成分回归分析法,是一种无监督的数据降维方法。首先利用线性变换,将数据变换到一个新的坐标系统中;然后再利用降维的思想,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上。这种降维的思想首先减少数据集的维数,同时还保持数据集的对方差贡献最大的特征,最终使数据直观呈现在二维坐标系。旨在利用降维的思想,把多指标转化为少数几个综合指标。

主成分分析可以反映出群体分群信息及离群样本,可以使用 plink、EIGENSOFT等软件进行分析,这里我们使用 plink。

数据和软件准备

数据:all.LDfilter.vcf(上一步构建进化树时已经过滤好的文件)
样品和分群的对应文件sample.txt,第一列是样品名,第二列是亚群名


软件:plink

参考脚本

plink --vcf  all.LDfilter.vcf  \ #输入文件
--pca 10  \ #PCA的个数要小于等于样本数
--out  PCA_out   \ #输出文件名称
--allow-extra-chr \ #允许其他格式的染色体名称

主要输出结果:
1.特征值文件:PCA_out.eigenval


2.特征向量文件:PCA_out.eigenvec


绘图

Rscript PCA.R  \#R绘图脚本
PCA_out.eigenvec 1 2  \#pca1、pca2
sample.pop  \#分群信息
PCA_out

欢迎关注Bioinfor 生信云公众号!

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容