Part1: 搞懂了pandas DataFrame的column sharding问题
Attention: column sharding只有在pandas v0.20版本之前才支持
data_frame[[0,1]]
command: pip install pandas==0.19.2
Part2: 视频学习
Lesson 17 review
在spyder跑程序时,犯了一个错误:没有先把整个文件跑一遍,导致只执行部分代码时找不到文件
Lesson 18 记录合并
将具有共同的数据结构的数据框合并成一个数据框
pandas.concat([dataFrame1, dataFrame2, dataFrame3...])
如果数据列不同,则合并相同的列,不同的列填充为NaN
Lesson 19 字段合并
将同一个数据框中的不同列,进行合并,生成新的列,是数据拆分的逆操作
字段拆分:
split(sep, n, expand=False)
字段合并:
x = x1 + x2 + ...
x1, x2为数据列,合并后得到Series
需要保证x1, x2均为字符型数据列, 所以可以直接把整个data_frame转成string类型:
data_frame.astype(str)
Lesson 20 字段匹配
根据个表共有的关键字段,把几张表匹配起来
merge(x, y, left_on, right_on)
x: 第一个数据框
y: 第二个数据框
left_on: 第一个数据框用于匹配的列
right_on: 第二个数据框用于匹配的列
返回数据框
Attention: left_on和right_on需要是相同的数据类型
如果想保存左边数据框所有行:how='left', vice versa
default: 两个数据框中匹配不上的都会删除
如果想保留左右表中所有值,包括所有找不到对应关系的行,都会被保留,填NaN