面向数据科学家的实用统计学 高清中文版

作者: [美] 彼得·布鲁斯 / 安德鲁·布鲁斯 

出版社: 人民邮电出版社

原作名: Practical Statistics for Data Scientists: 50 Essential Concepts

译者: 盖磊 

出版年: 2018-10-1

页数: 220页

定价: 89.00元

装帧: 平装

ISBN: 9787115493668


面向数据科学家的实用统计学 高清中文版 下载链接:

https://www.fageka.com/i/tP4ddeI2708


内容简介 · · · · · ·

本书解释了数据科学中至关重要的统计学概念,介绍如何将各种统计方法应用于数据科学。作者以易于理解、浏览和参考的方式,引出统计学中与数据科学相关的关键概念;解释各统计学概念在数据科学中的重要性及有用程度,并给出原因。


作者简介 · · · · · ·

彼得·布鲁斯(Peter Bruce),知名统计学家,Statistics.com统计学教育学院的创立者兼院长,重采样统计软件的开发者。曾在美国马里兰大学和各种短训班教授重采样统计课程。

安德鲁·布鲁斯(Andrew Bruce),华盛顿大学统计学博士,拥有30多年的统计学和数据科学经验,在多家知名学术期刊上发表过多篇论文。

目录 · · · · · ·

前言   xiii

第 1 章 探索性数据分析 1

1.1 结构化数据的组成 2

1.2 矩形数据 4

1.2.1 数据框和索引 5

1.2.2 非矩形数据结构 5

1.2.3 拓展阅读 6

1.3 位置估计 6

1.3.1 均值 7

1.3.2 中位数和稳健估计量 8

1.3.3 位置估计的例子:人口和谋杀率 9

1.3.4 拓展阅读 10

1.4 变异性估计 10

1.4.1 标准偏差及相关估计值 11

1.4.2 基于百分位数的估计量 13

1.4.3 例子:美国各州人口的变异性估计量 14

1.4.4 拓展阅读 14

1.5 探索数据分布 14

1.5.1 百分位数和箱线图 15

1.5.2 频数表和直方图 16

1.5.3 密度估计 18

1.5.4 拓展阅读 20

1.6 探索二元数据和分类数据 20

1.6.1 众数 21

1.6.2 期望值 22

1.6.3 拓展阅读 22

1.7 相关性 22

1.7.1 散点图 25

1.7.2 拓展阅读 26

1.8 探索两个及以上变量 26

1.8.1 六边形图和等势线(适用于两个数值型变量) 26

1.8.2 两个分类变量 28

1.8.3 分类数据和数值型数据 29

1.8.4 多个变量的可视化 31

1.8.5 拓展阅读 33

1.9 小结 33

第 2 章 数据和抽样分布 34

2.1 随机抽样和样本偏差 35

2.1.1 偏差 36

2.1.2 随机选择 37

2.1.3 数据规模与数据质量:何时规模更重要 38

2.1.4 样本均值与总体均值 38

2.1.5 拓展阅读 39

2.2 选择偏差 39

2.2.1 趋均值回归 40

2.2.2 拓展阅读 41

2.3 统计量的抽样分布 42

2.3.1 中心极限定理 44

2.3.2 标准误差 44

2.3.3 拓展阅读 45

2.4 自助法 45

2.4.1 重抽样与自助法 47

2.4.2 拓展阅读 48

2.5 置信区间 48

2.6 正态分布 50

2.7 长尾分布 53

2.8 学生t 分布 55

2.9 二项分布 57

2.10 泊松分布及其相关分布 58

2.10.1 泊松分布 59

2.10.2 指数分布 59

2.10.3 故障率估计 60

2.10.4 韦伯分布 60

2.10.5 拓展阅读 61

2.11 小结 61

第3 章 统计实验与显著性检验 62

3.1 A/B 测试 62

3.1.1 为什么要有对照组 64

3.1.2 为什么只有处理A 和B,没有C、D…… 65

3.1.3 拓展阅读 66

3.2 假设检验 66

3.2.1 零假设 67

3.2.2 备择假设 67

3.2.3 单向假设检验和双向假设检验 68

3.2.4 拓展阅读 68

3.3 重抽样 68

3.3.1 置换检验 69

3.3.2 例子:Web 黏性 69

3.3.3 穷尽置换检验和自助置换检验 72

3.3.4 置换检验:数据科学的底线 72

3.3.5 拓展阅读 72

3.4 统计显著性和p 值 72

3.4.1 p 值 74

3.4.2 α 值 75

3.4.3 第 一类错误和第二类错误 76

3.4.4 数据科学与p 值 76

3.4.5 拓展阅读 77

3.5 t 检验 77

3.6 多重检验 78

3.7 自由度 81

3.8 方差分析 82

3.8.1 F 统计量 84

3.8.2 双向方差分析 85

3.8.3 拓展阅读 86

3.9 卡方检验 86

3.9.1 卡方检验:一种重抽样方法 86

3.9.2 卡方检验:统计理论 88

3.9.3 费舍尔精确检验 88

3.9.4 与数据科学的关联 90

3.9.5 拓展阅读 91

3.10 多臂老虎机算法 91

3.11 检验效能和样本规模 93

3.11.1 样本规模 95

3.11.2 拓展阅读 96

3.12 小结 96

第4 章 回归与预测 97

4.1 简单线性回归 97

4.1.1 回归方程 98

4.1.2 拟合值与残差 100

4.1.3 最小二乘法 101

4.1.4 预测与解释(剖析) 102

4.1.5 拓展阅读 103

4.2 多元线性回归 103

4.2.1 美国金县房屋数据案例 103

4.2.2 评估模型 104

4.2.3 交叉验证 106

4.2.4 模型选择和逐步回归法 107

4.2.5 加权回归 108

4.3 使用回归做预测 109

4.3.1 外推法的风险 109

4.3.2 置信区间和预测区间 110

4.4 回归中的因子变量 111

4.4.1 虚拟变量的表示 112

4.4.2 多层因子变量 113

4.4.3 有序因子变量 114

4.5 解释回归方程 115

4.5.1 相关的预测变量 116

4.5.2 多重共线性 117

4.5.3 混淆变量 117

4.5.4 交互作用和主效应 118

4.6 检验假设:回归诊断 119

4.6.1 离群值 120

4.6.2 强影响值 121

4.6.3 异方差性、非正态分布和相关误差 123

4.6.4 偏残差图和非线性 126

4.7 多项式回归和样条回归 127

4.7.1 多项式回归 128

4.7.2 样条回归 129

4.7.3 广义加性模型 131

4.7.4 拓展阅读 132

4.8 小结 133

第5 章 分类 134

5.1 朴素贝叶斯算法 135

5.1.1 准确的贝叶斯分类是不切实际的 136

5.1.2 朴素解决方案 136

5.1.3 数值型预测变量 138

5.1.4 拓展阅读 138

5.2 判别分析 138

5.2.1 协方差矩阵 139

5.2.2 费希尔线性判别分析 139

5.2.3 一个简单的例子 140

5.2.4 拓展阅读 142

5.3 逻辑回归 142

5.3.1 逻辑响应函数和Logit 函数 143

5.3.2 逻辑回归和广义线性模型 144

5.3.3 广义线性模型 145

5.3.4 逻辑回归的预测值 145

5.3.5 解释系数和优势比 146

5.3.6 线性回归与逻辑回归:相似之处和不同之处 147

5.3.7 模型评估 148

5.3.8 拓展阅读 150

5.4 评估分类模型 150

5.4.1 混淆矩阵 151

5.4.2 稀有类问题 152

5.4.3 准确率、召回率和特异性 153

5.4.4 ROC 曲线 153

5.4.5 AUC 155

5.4.6 提升 156

5.4.7 拓展阅读 157

5.5 不平衡数据的处理策略 157

5.5.1 欠采样 158

5.5.2 过采样以及上权重和下权重 158

5.5.3 数据生成 159

5.5.4 基于代价的分类 160

5.5.5 探索预测值 160

5.5.6 拓展阅读 161

5.6 小结 161

第6 章 统计机器学习 162

6.1 K 最近邻算法 163

6.1.1 预测贷款拖欠的示例 164

6.1.2 距离度量 165

6.1.3 独热编码 166

6.1.4 标准化 166

6.1.5 K 值的选取 168

6.1.6 KNN 作为特征引擎 169

6.2 树模型 170

6.2.1 一个简单的例子 171

6.2.2 递归分区算法 172

6.2.3 测量同质性或不纯度 174

6.2.4 阻止树模型继续生长 175

6.2.5 预测连续值 176

6.2.6 如何使用树模型 176

6.2.7 拓展阅读 177

6.3 Bagging 和随机森林 177

6.3.1 Bagging 方法 178

6.3.2 随机森林 178

6.3.3 变量的重要性 181

6.3.4 超参数 183

6.4 Boosting 184

6.4.1 Boosting 算法 184

6.4.2 XGBoost 软件 185

6.4.3 正则化:避免过拟合 186

6.4.4 超参数和交叉验证 189

6.5 小结 191

第7 章 无监督学习 192

7.1 主成分分析 193

7.1.1 一个简单的例子 194

7.1.2 计算主成分 195

7.1.3 解释主成分 196

7.1.4 拓展阅读 198

7.2 K-Means 聚类 198

7.2.1 一个简单的例子 199

7.2.2 K-Means 算法 201

7.2.3 解释类 201

7.2.4 选择类的个数 203

7.3 层次聚类 204

7.3.1 一个简单的例子 205

7.3.2 树状图 205

7.3.3 凝聚算法 206

7.3.4 测量相异性 207

7.4 基于模型的聚类 208

7.4.1 多元正态分布 209

7.4.2 混合正态分布 210

7.4.3 类数的选取 212

7.4.4 拓展阅读 213

7.5 变量的缩放和分类变量 213

7.5.1 变量的缩放 214

7.5.2 控制变量 215

7.5.3 分类数据和高氏距离 216

7.5.4 混合数据的聚类问题 218

7.6 小结 219

作者简介 220

封面说明 220

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • [{"reportDate": "2018-01-23 23:28:49","fluctuateCause": n...
    加勒比海带_4bbc阅读 765评论 1 2
  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,861评论 6 13
  • 撞衫一词最早来源于欧洲,现指在同一场合的两个人穿了相同或者相似的衣服。 撞衫在日常生活中就已经颇让人感到尴尬了,更...
    大风儿阅读 907评论 3 4
  • 这个假期搬了新店,搞定了一件大事,还有租的店里要转让。 昨晚偶然看到一个学生家长找了大童的人进行保单管理,整整25...
    壹柒说阅读 147评论 0 0
  • 曾经沧海难为水,过去云烟已去矣。多么怀念美好时光,但愿时光倒流,那该多好呀,可是这一切都不可能的…… 或许经历过很...
    大野的竹阅读 244评论 2 1