Python学习笔记-3群18组-杜杜狼-2017.7.20

Part1: 搞懂了pandas DataFrame的column sharding问题

Attention: column sharding只有在pandas v0.20版本之前才支持

data_frame[[0,1]]

command: pip install pandas==0.19.2

Part2: 视频学习

Lesson 17 review

在spyder跑程序时,犯了一个错误:没有先把整个文件跑一遍,导致只执行部分代码时找不到文件

Lesson 18 记录合并

将具有共同的数据结构的数据框合并成一个数据框

pandas.concat([dataFrame1, dataFrame2, dataFrame3...])

如果数据列不同,则合并相同的列,不同的列填充为NaN

Lesson 19 字段合并

将同一个数据框中的不同列,进行合并,生成新的列,是数据拆分的逆操作
字段拆分:

split(sep, n, expand=False)

字段合并:

x = x1 + x2 + ...

x1, x2为数据列,合并后得到Series
需要保证x1, x2均为字符型数据列, 所以可以直接把整个data_frame转成string类型:

data_frame.astype(str)

Lesson 20 字段匹配

根据个表共有的关键字段,把几张表匹配起来

merge(x, y, left_on, right_on)

x: 第一个数据框
y: 第二个数据框
left_on: 第一个数据框用于匹配的列
right_on: 第二个数据框用于匹配的列
返回数据框

Attention: left_on和right_on需要是相同的数据类型

如果想保存左边数据框所有行:how='left', vice versa
default: 两个数据框中匹配不上的都会删除
如果想保留左右表中所有值,包括所有找不到对应关系的行,都会被保留,填NaN

Part3: 复习Lesson 17 随机抽样并动手重写程序

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容