Python学习笔记-3群18组-杜杜狼-2017.7.20

Part1: 搞懂了pandas DataFrame的column sharding问题

Attention: column sharding只有在pandas v0.20版本之前才支持

data_frame[[0,1]]

command: pip install pandas==0.19.2

在spyder跑程序时，犯了一个错误：没有先把整个文件跑一遍，导致只执行部分代码时找不到文件

将具有共同的数据结构的数据框合并成一个数据框

pandas.concat([dataFrame1, dataFrame2, dataFrame3...])

如果数据列不同，则合并相同的列，不同的列填充为NaN

将同一个数据框中的不同列，进行合并，生成新的列，是数据拆分的逆操作
字段拆分：

split(sep, n, expand=False)

字段合并：

x = x1 + x2 + ...

x1, x2为数据列，合并后得到Series
需要保证x1, x2均为字符型数据列, 所以可以直接把整个data_frame转成string类型：

data_frame.astype(str)

根据个表共有的关键字段，把几张表匹配起来

merge(x, y, left_on, right_on)

x: 第一个数据框
y: 第二个数据框
left_on: 第一个数据框用于匹配的列
right_on: 第二个数据框用于匹配的列
返回数据框

Attention: left_on和right_on需要是相同的数据类型

如果想保存左边数据框所有行：how='left', vice versa
default: 两个数据框中匹配不上的都会删除
如果想保留左右表中所有值，包括所有找不到对应关系的行，都会被保留，填NaN

最后编辑于：2017.12.09 01:27:09

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。