范数是什么? 有时我们需要衡量一个向量的大小。在机器学习中,我们经常使用被称为范数(norm)的函数衡量向量大小。形式上,Lp 范数定义如下 其中p 属于实数空间中的元素,p...
提升方法Adaboost算法 提升方法的基本思路 对于一个复杂的任务来说,多个专家给出判断要比单个专家的判断要好。换句话说就是“三个臭皮匠顶个诸葛亮” 对于分类问题,提升方法...
最简单的模型,例如线型模型:out = X*W +b这里我要声明,这X和W 和b并不仅仅是一个常数,也可以是一个矩阵。这种线型模型很好计算出其参数。但是如果一个数据并不是线性...
浅拷贝:简单的赋值拷贝操作深拷贝:在堆区重新申请空间,进行拷贝操作
前言 jupyter_notebook是数据相关岗位从业者的一个不错的选择,很清晰、很方便,可以将分析过程和分析结果同步显示在一起。但是有的时候随着你的分析增多,你的代码就会...
概率的古典具有的两大特点 结果有限。即基本空间中只含有有限个元素。如掷硬币的试验中,只能出现“正面朝上”和“反面朝上”两种结果 各个结果出现的可能性被认为是相同的。如掷硬币,...
抽样采集数据:概率抽样和非概率抽样概率抽样也称为随机抽样,是指遵守随机原则进行的抽样,总体中每个单位都有一定的机会被选进样本。它有如下特点: 抽样是按照一定概率以随机原则抽取...
spark neither stores data long term itself,nor favors one over another.spark专注于计算,不负责长期...
在看完好多文章后发现没有几个文章解决了我的问题,我自己写一下 gbdt是什么? gbdt是gradient boosting Decision Tree,梯度提升树。这里bo...
业务背景分析范围分析方法使用数据制作图表进行说话,对图表中体现的拐点,异常波动重点解析背后的原因和业务动作评估哪些业务动作有效,哪些无效给予后续的策略建议 经营分析报告常用的...
相关分析 相关要解决的问题 1) 变量是否存在关系?2) 如果存在关系,那是存在的什么关系???3) 有关系的话,它的关系强度是多少???4) 是否可以用样本反映的变量上关系...
表面上看方差分析是检验多个总体均值是否相等的统计方法,但实质上它所研究的是分类型自变量对数值型因变量的影响,例如,变量之间有没有关系,关系的强弱如何。方差分析就是通过检验各总...
处理两个分类变量的问题 比如:喝不喝牛奶和感不感冒是否有联系?产品等级和生产地有没有关系?? 独立性检验 独立性检验就是分析列联表中行变量和列变量是否相互独立 这里我用pyt...
拟合优度检验是对一个分类变量的检验 拟合优度检验是用卡方统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数相比较...