Python学习笔记-3群18组-杜杜狼-2017.7.25

Lesson 30 交叉分析(cross-over analysis)
通常用于分析两个或两个以上,分组变量之间的关系,以交叉表形式进行变量间关系的对比分析
数据透视表函数

pivot_table(values, index, columns, aggfunc, fill_value)

values: 数据透视表中的值
index: 数据透视表中的行
columns: 数据透视表中的列
aggfunc: 统计函数
fill_value: NA值的统一替换

Lesson 31 结构分析(structure analysis)
在分组以及交叉分析的基础上,计算各组成部分所占的比重,进而分析总体的内部特征的分析方法
主要是指定性分组, e.g.性别结构,股权结构,市场结构,地区结构
通常使用饼图,如果结构成分较少,可考虑圆环图

axis:
0 -> 按列运算 default
1 -> 按行运算

数据框外运算函数:add, sub, multiply, div
数据框内运算函数:sum, mean, var, sd

Lesson 32 相关分析(correlation analysis)
研究两个或两个以上随机变量之间互相依存关系的方向和密切程度
可分成线性相关和非线性相关
线性相关关系主要采用皮尔逊相关系数r来度量连续变量之间线性相关强度
-1<=r<=1

线性相关系数r绝对值取值范围 | 相关程度
----|------|----
0 <= r绝对值 < 0.3 | 低度相关
0.3 <= r绝对值 < 0.8 | 中度相关
0.8 <= r绝对值 <= 1 | 高度相关

相关分析函数

#计算每个列两两之间的相关度,并返回DataFrame
DataFrame.corr()
#只计算该序列与传入的序列之间的相关度, 返回一个数值型,大小为相关度
Series.corr(other)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容