DataWhale 组队学习 2021.05 组队学习系列笔记五 孤立森林思想:用一个随机超平面来切割数据空间,切一次生成两个子空间,然后不断用随机超平面来切割,直至每个子空...
DataWhale 组队学习 2021.05 组队学习系列笔记五 孤立森林思想:用一个随机超平面来切割数据空间,切一次生成两个子空间,然后不断用随机超平面来切割,直至每个子空...
DataWhale 组队学习 2021.05 组队学习系列笔记四 LOF 方法是一种典型的基于密度的高精度离群点检测方法。在 LOF 方法中,通过给每个数据点都分配一个依赖于...
DataWhale 组队学习 2021.05 组队学习系列笔记三 补充内容:一、PCA实现流程,设有 m 条 n 维数据: S1. 将原始数据按列组成 n 行 m 列矩阵...
DataWhale 组队学习 2021.05 组队学习系列笔记二 先上整体大纲 HBOS流程: 为每个数据维度做出数据直方图。对分类数据统计每个值的频数并计算相对频率。 对每...
DataWhale 组队学习 2021.05 组队学习系列笔记一 核心内容: 一、 异常检测是做什么:划分正常数据(预期行为数据)与非正常数据(预期行为差异数据) 二、 实现...
当你拥有地域相关数据时,首先想到的制作工具是什么呢?Echarts、basemap(后期更新)、pyecharts、matplotlib、seaborn等等?不过今天我们先以...
示例代码 效果图关系图.png
话说日本国小地狭,所以日本人是「恒念物力维艰」。面临频繁的物资匮缺,在很多事物上日本人养成了「精雕细琢」的习惯,取物之精巧,得事之细致。 「断舍离」就是这样一个典型的日本生活...
one-hot encoding one-hot的基本思想:将离散型特征的每一种取值都看成一种状态,若你的这一特征中有N个不相同的取值,那么我们就可以将该特征抽象成N种不同的...
提升你的洞察的最好方法之一是通过可视化你的数据:这样,你可以更容易地识别模式,掌握到困难的概念以及注意到关键的要素,当你使用数据科学中的Python时,你很有可能已经用了Ma...
Frechet 距离是衡量数字曲线距离的一种距离。从直观的意义来看,也可以称之为狗绳距离。 线状要素是离散的数字曲线,计算算法的大体思路用一个公式表示即为 line1=[[1...
一直对我们的微博保持关注的朋友应该知道,今年年初的时候,我们同时开通了 GitHubDaily 公众号与知乎账号。 在开通知乎账号后,我们回答的第一个问题是《你在 GitHu...
全篇哪里出现频率了
2019-04-10用户画像,是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,可以看作是企业应用大数据技术的基本方式。用户画像为企业提...