240 发简信
IP属地:北京
  • 基于Tkinter小型应用开发经验总结

    项目进行到后期,基于目前试验结果和所有数据,已经完成初步的模型建立,需要根据现有模型和算法,对算法和模型进行包装,完成black box黑盒子,所以对我们的程序进行了简单的小...

  • 120
    基于树模型的特征选择及模型可解释性

    1. 基于tree base的特征选择 以决策树为基础的模型有很多,包括最常用的randomforest,deep-forest和GBDT之类,这些集成模型相较于基础模型,拥...

  • python-yield 与multiprocessing pool的问题

    Backgroud 最近在处理比对后的bam文件,文件大小约为15G左右,由于内存限制,准备使用生成器的模型分块读取文件,同时进行多进程的处理,大致思路如下:定义处理函数,使...

  • 120
    数据分析与图形化-seaborn作图总结

    python中常用的数据图形化库有matplotlib,seaborn,plotnine以及pandas自带的图形化功能等(目前我接触的)。在这几种图形化中,pandas自带...

  • 相关性分析

    在我们进行数据处理时,相关性分析是我们最常使用的分析方法之一。相关性,即衡量二个特征或者两个变量之间的关联程度。两个变量的相关关系意味着二者之间存在着某种数学关系。我们并不知...

  • 置信区间

    在大部分科研文献里面,我们基本都能看得到置信区间这个词汇,比如95%的置信区间。我们都知道的是,统计学的本意是通过样本的情况去预估整体,比如我们需要通过样本的均值去预估总体的...

  • python中的排列组合

    在日常的工作学习中,我们肯定会遇到排列组合问题,比如,在5种颜色的球中,任意取3个,共有多少种组合方式,这也包括有放回和无放回抽样。在python中,自带的排列组合函数,都在...

  • 120
    归一化与标准化

    归一化与标准化操作是数据预处理过程中常见的数据处理(特征缩放)方法。常见的归一化标准化有四种。 1、极大极小归一化在数据集中,使用数据的值减去极小值处以极差,得到数值范围在(...

  • 关于matplotlib外接显示的问题

    Python matplotlib问题如果出现在shell5里跑程序,需要画图,但是运行到最后会报错如下:QXcbConnection: Could not connect ...

  • 120
    nr数据库分库

    我们下载的nr数据库非常大,2017年9月更新后所有nr的fasta文件已达72G,因而在进行nr比对时,如果不对nr库以类别进行区分,会非常耗我们的计算资源和时间,因而最好...

  • 离散型数据检验方法学习

    二项检验 二项分布是指统计变量中只有性质不同的两箱群体的概率分布,两个观测值是对立的。二项分布描述了n次实验中恰好有k次成功的概率。二项分布定义: 任意一次事件中,A只有发生...

  • 使用anaconda构建单细胞的分析环境

    使用anaconda构建单细胞的分析环境 进行单细胞分析软件包的调研时,发现anaconda真是个好东西,使用anaconda可以轻松的创建不同的python环境R环境 co...

  • 120
    异常值检测

    数据处理过程中,通常需要对数据进行预处理,包括缺失值填充,异常值检测等。异常值处理对于后续数据分析,建模具有非常很重要的影响。 基于描述统计 1.基于常识判断 针对数据进行简...

  • python-推导式

    推导式comprehension(又称解析式),是python的一种独有特性。推导式是从一个数据序列构建另外一个数据序列结构体。共有三种推导。 字典推导式 列表推导式 集合推...

  • 关于深拷贝和浅拷贝

    给定一个列表 如上图所示,当在python中我们使用赋值号将a 列表赋值给 b 时 当a 使用remove 方法对列表内的元素进行操作时,则在b中的元素会进行同样的操作 又或...

  • 假设检验

    假设检验 统计推断的另一类重要问题是假设检验,在总体的分布函数完全未知或者只知道其形式,不知道其参数的情况下,为了推断总体的某些未知特性,提出关于总体的假设。PS:在这个地方...

  • p值校正

    近年来由于蛋白组基因组代谢组学的发展,产生的变量数目巨大而样本数目较少。用传统的统计学方法会产生大量的假阳性结果。则对于m次检验,至少犯一次假阳性的概率为 见下图 随着m的增...

  • boxcox数据转换

    定义 Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后,...

  • 120
    数据的正态性检验

    对于我们得到的一组数据,我们日常生活中遇到最多的,应用范围最广的就是正态分布。如果要确定数据是否为正态分布,就要进行正态性检验。检验数据分布常用的检验方法有χ²检验,偏度-峰...