6 数据处理之数据标准化

       这一节讲数据标准化的其中一种处理方法。

       故事要从,看到以下左图开始讲起,之前我们为了说明特异性一般都是用以下右图的表示方法,看起来就比较boring。左边这种叫做正交图,一个简单的图片就蕴含了很大的信息量有木有,用四种检测体系检测四种靶标,通过二维正交图良好地展示了方法的特异性,右图表示用一种检测体系检测x种靶标,形成一维柱状图,左图(摘自周小明教授团队文章)就赤果果地碾压了右图的信息含量好吗!整整多了一个维度!这也能更好地验证方法的特异性,所以我开始琢磨如何整个左图出来。

       首先是实验设计,那很简单,依葫芦画瓢,设计针对不同靶标的检测体系,然后分别检测这些靶标,出来的实验结果如下左图所示,从数据上看来不错,几乎是只对正确的靶标有明显的信号。兴高采烈地画个热图(如下右图所示),横轴表示靶标,纵轴表示检测体系,但我感觉有点懵逼,这不像别人的那么美观啊!数据也挺好的,怎么会这样呢...

       我想到了数据标准化,因为每个检测体系性能不一样,所以展示的值不在同一水品,如果用同一个体系(比如从0到1,0表示最弱,1表示最强)来表示信号强度,那估计能更好地体现不同检测体系的特异性。

       以下是3种不同的数据标准化处理方法,我认为我这种情况最适合的是第一种,请大家按需自取。

一、Min-max 标准化

       min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x',其公式为:

新数据=(原数据-最小值)/(最大值-最小值)

二、z-score 标准化

       这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。

        z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。

新数据=(原数据-均值)/标准差

三、Decimal scaling小数定标标准化

        这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x使用decimal scaling标准化到x'的计算方法是:

x'=x/(10^j)

        在四组检测体系分别计算其标准化数值,然后再画热图,这样是不是看起来好多啦!

       偷偷告诉你,其实不是的哦,刚开始画的热图,是这样,这样,这样的!

       所以下一节讲,如何画一张美丽的热图~

参考文献:Tian T, Shu B, Jiang Y, Ye M, Liu L, Guo Z, Han Z, Wang Z, Zhou X. An Ultralocalized Cas13a Assay Enables Universal and Nucleic Acid Amplification-Free Single-Molecule RNA Diagnostics. ACS Nano. 2021 Jan 26;15(1):1167-1178. doi: 10.1021/acsnano.0c08165. Epub 2020 Dec 17. PMID: 33498106.

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容