大家好,好久不见,这个公众号目前只有我在写,所有更新随心所欲,想起来什么就发点啥,也不为挣钱,希望能跟大家分享一些自己在生信学习中的感受。
上次我们把完整的vcf数据提取出来了,完整的数据对于我们提取其他有效信息非常有用,不过这个数据框的列名有些比较令人费解,并不是我们数据的命名形式。今天我们讲这个完整数据每一列的列名代表什么意思。
我们先来看看数据都有哪些列:
找到官方的说明:The first row represents a biallelic variant (rs10399793). Thereference allele (T) is always the non-effect allele and must match thereference genome sequence. The alternative allele (C) is always the effectallele and often (but not always) the minor allele. The final column containsthe effect size (ES), standard error (SE), P value on -log10 scale (LP), studyallele frequency (AF) and sample size (NS). Some fields are optional othersrequired, refer to the header and section 2 (below) for details.
翻译一下:effect size (ES)效应值也就是beta,standard error (SE)标准误,P value on -log10
scale(LP)(存疑,每个数据不太一样,有的是直接给的P,可能需要探索一下),study allele frequency (AF)也就是大家熟悉的eaf,sample size (SS)样本量,ALT即effect_allele,REF即other_allele,NC number_cases即患者数量。其他的大家一眼就能看出来就不翻译了。有了这些数据就可以整理一下做任何想做的事情了。
R语言是生信学习避不开的语言,在孟德尔随机化领域,基本上只有R可以做完所有的分析,R在绘图上也有很完善的语法,也是比较简单的语言,我目前学习上碰到的事情大部分都是R完成的,少量使用到python,希望大家能学好R。