elliebu - 简书

发简信

elliebu

2
关注
0
粉丝
0
文章
0

字数
0

收获喜欢

IP属地：上海

屹然1ran

机器学习[1.1] - Mann-Whitney U Test与ROC、AUC
在了解U统计量与AUC之间的关系前，先复习一下Mann-Whitney U Test首先放上AUC在统计上的意义：随机选取一个正例和一个负例，分类器给正例的打分大于分类器给...

1215 0 2
屹然1ran

plydata包 - Python中的dplyr Pipe(管道)数据处理方式
Hassan Kibirige[https://github.com/has2k1]开发的plydata[https://github.com/has2k1/plydata]...

727 0 2
屹然1ran

机器学习[3] - 监督模型之树模型
1. 基本概念决策树模型为非参数监督模型，该模型为根据一系列的if-else逻辑组合而成。树可以看作是一个分段函数，并且树的层数越深，就会更贴合数据(fitted)。显然...

846 0 1
屹然1ran

机器学习[1] - 模型评估与选择
评估方法留出法 Hold-out“留出法”将两个数据集拆分为两个互斥的集，一般训练集为70%，测试集为30%。这样使用测试集得出的测试误差(testing error)更具...

629 0 4
屹然1ran

Learning Spark [6] - Spark SQL高级函数
collect, collect_list, collect_set collect常用的有两个函数：collect_list(不去重)和collect_set(去重) co...

1228 0 2
屹然1ran

Learning Spark [3] - Catalyst Optimizer
Catalyst Optimizers是Spark SQL的一个重要功能，他会将数据查询转换为执行计划。他分为四个步骤：分析逻辑优化物理规划生成代码例子： M&Ms...

255 0 1
屹然1ran

Learning Spark [1] - Spark的基础概念
术语： Application(应用程序)：用户使用API所构建的Spark程序，包含了Driver(驱动)和Executor(执行单元)。 SparkSession(Spa...

371 0 1
屹然1ran

Learning Spark [4] - Spark SQL
Spark SQL为Spark提供了以下几个特性：提供高级结构框架的API(见Learning Spark [3]) 允许读取不同格式的数据(json, hive, tab...

355 1 2
屹然1ran

零和博弈 - 100个人各有100元每次随机给另一个人1元
今天在知乎上看了一个问题，发现结果与自己起初的直觉大相径庭，同时回忆起了以前的一些统计知识。问题房间内有 100 人，每人有 100 块，每次随机给另一个人 1 块，最后...

2330 0 2