要知道,所有的生信内容基本上都是一个主线:用数据说明真理。那么,怎么说明呢?答案来了,平白的讲一下就是用统计学的知识来证明这些生物数据的秘密所在。
来来来,简单see一下:本人认为,看数据,特别是看大数据无非是看它们的大体趋势和它们的一些基本特征(这些用一些指标就可以说明):集中趋势指标(均数、中位数、众数),变异性指标(极差、方差、标准差、偏度、峰度)。
Ok,让我们粗略的了解一下:
集中趋势又称“数据的中心位置”,它是一组数据的代表值。其中 均值(mean):均值能够利用所有的已知信息,但是对特殊值也很敏感(极大值、极小值)。中位数(median):排序后居于中间位置的数值,不能充分利用已知的所有变量信息,但不受异常值的影响,或者影响很小。 众数(mode):出现最频繁的数,代表分布的高峰。
变异趋势脱离正常范围的趋势,一般生信的秘密都在其中。
极差(range):最大值与最小值之差;
方差(variable):离均差(真实值与均值之差)平方的均值,数据分布越分散(差别越大),方差越大;
标准差(standard deviation):方差的平方根,与数据本身相同的量纲,所以比较常用。
偏度(skewness):刻画数据在均值两侧偏差趋势的差异性;》0右偏,《0左偏。
峰度(kurtosis):测量分布曲线相对平滑或者凸起的程度。K=3,正态;k<3,平缓;k>3,凸起。