FIXED 详细级别表达式使用指定的维度计算值,而不引用视图中的维度。INCLUDE表达式,将随视图中的任何其他维度一起添加表达式中的维度来确定表达式的值。INCLUDE用于...
最近读了一本书,书名叫《增长黑客》,感觉受益良多,读完就迫不及待想要分享一下。这本书就是著名“黑客增长之父”肖恩·埃利斯 历时十年的重磅之作,主要讲的就是如何低成本实现爆发式...
一、算法思路:(这里主要关注两种) 生成模型:先计算样本特征的总体的联合分布,将所有有标注的样本计算出一个分布,然后把没有标注的样本放入这个分布中,看根据这个分布它该如何被标...
一、分类模型1.KNN算法函数:KNeighborsClassifier()思路:对k个最近的邻居进行拟合,调试出最佳n_neighbors的值,分别对训练集、验证集、测试集...
我是从负责运输公司的财务转行成为运输的数据分析的。转行大概准备了半年多,不知道能不能算迅速。 首先是数据处理能力,例如京东系统中发车数据、装货数据、客户下单数据,可以用海量形...
一、概念 人工神经网络是是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。这种模型可以适用于分类与回归。 神经网络的优点:可以把非线性做的特别好,拟合能力特别强,...
特征处理包括:数据清洗和特征预处理。 一、数据清洗: 1.数据样本抽样 ①样本要具备代表性 ②样本比例要平衡以及样本不平衡时如何处理 ③考虑全量数据 2.异常值处理 2.1...
一、概念 LDA:Linear Discriminant Analysis 线性判别式分析 (NOT:在文本分析领域,还有个LDA的概念,全称为隐含狄利克雷分布(Latent...
特征选择就是剔除与标注不相关或者冗余的特征,它是数据归约的思路之一(另一个思路为抽样) 特征选择主要包括三种思想:过滤思想、包裹思想和嵌入思想。 编程实现: 第一步,导入必要...
相关分析最常用的方法就是用相关系数直接衡量连续值的相关性,而离散属性的相关性是用熵增益转换成相关性的形式来衡量。 一、分析连续值的相关性: Pearson相关系数及Spear...
分析思路: 1.导入必要的包(pandas,numpy,scipy.stats,matplotlib.pyplot,seaborn) 2.读取文件,为df 3.按 depar...
分析思路: 先导入pandas、numpy包; 定义一个myPCA,传入data及n_components参数,并设置components为1000000维; ①先求每个属性...
t分布 t分布又可以被称为学生t分布。其由Wiliam Sealy Gosset在1908时发现,t分布与样本大小n相关,确切地是与自由度df=n-1相关。 t分布与正态分布...
冒泡~:最近在回顾一些以前学过的概率论和数理统计的知识 发现这三个抽样分布经常出现,在参数估计和假设检验也会运用到,所以做一下整理。 【首先,这三个抽样分布都是来自正态总体的...
提升你的洞察的最好方法之一是通过可视化你的数据:这样,你可以更容易地识别模式,掌握到困难的概念以及注意到关键的要素,当你使用数据科学中的Python时,你很有可能已经用了Ma...