文章转载 https://zhuanlan.zhihu.com/p/25951427,后面收集到更多的会做一个补充。 1、风控系统篇 1.1 A...
组件 |Daemon |端口 |配置 |说明--|HDFS |DataNode |50010 |dfs.datanode.addr...
背景 由于项目需求数据本地话保存,而且数据主要为json格式的大块非结构化数据,并且线上情况以每日50G的速度在增长,所以数据本地话保存的需求也...
继昨天使用sklearn的决策树分类器生成树图后,今天回到实际应用中。生成的图片可以使我们更直观的分析树图是否有背常理以及贴近实际业务情况。但是...
简介 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了。scikit-learn简称sklearn,支持包括...
之前就觉得docker 是个很吊的东西,也在电脑上装了docker,但是一直都比较忙,所以也忘了,最近突然想起就重新开始试玩了一下。 镜像由于国...
数据可视化参考流程 科学可视化的早期可视化流水线,描述了从数据空间到可视空间的映射,包含串行处理数据的各个阶段: 原始数据->数据分析->预处理...
评价指标 常用的术语True positives(TP): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);Fa...
单纯随机抽样 重复随机抽样 系统抽样 分层抽样先按对观察指标影响较大的某种特征,将总体分为若干个类别,再从每一层内按上述抽样方法抽取一定比例的观...